采样篇

python - 如何以垂直角度对 blob 上的一条线进行采样？ (在 Python/OpenCV 中，除非你建议切换到其他东西)

我正在开发一个程序，该程序将跟踪二进制Blob中心的点，类似于弯曲的五彩纸屑。稍后我将用三次样条曲线拟合这些点。作为计划的一部分，我需要:-创建一个二维向量，对二值图像中的斜线进行采样，-计算沿五彩纸屑团每个位置使用的角度。以下是一些图像示例，以及所追踪点的草图:找到黑色五彩纸屑垂直部分的中心很简单。假设你在一个黑色像素中，找到左右白色边缘，中间是它们之间距离的一半。这样做很容易，因为用于进行上述计算的二维向量只是图像的一行。但是五彩纸屑并不总是笔直垂直排列!有时它们是弯曲的，或水平对齐的。这里需要的是一个2d向量，它以一定角度切割五彩纸屑的一部分。从图像中采样这个有角度的矢量的最有效

何以 python image description 纸屑 algorithm opencv computer-vision

python - 改进最小/最大下采样

我有一些大型数组(约1亿个点)需要进行交互式绘图。我目前正在使用Matplotlib。按原样绘制数组变得非常慢并且是一种浪费，因为无论如何您都无法可视化那么多点。所以我创建了一个最小/最大抽取函数，该函数与轴的“xlim_changed”回调相关联。我采用最小/最大方法，因为数据包含我不想通过单步执行数据而错过的快速峰值。有更多包装器裁剪到x限制，并在某些条件下跳过处理，但相关部分如下:defmin_max_downsample(x,y,num_bins):"""Breakthedataintonum_binsandreturnsmin/maxforeachbin"""pts_per_

改进 python num_bins code pts_per_bin python-3.x numpy numba

python - 重采样多索引 DataFrame

我要resampleaDataFrame具有包含日期时间列和其他一些键的多索引。数据框看起来像:importpandasaspdfromStringIOimportStringIOcsv=StringIO("""ID,NAME,DATE,VAR11,a,03-JAN-2013,691,a,04-JAN-2013,771,a,05-JAN-2013,752,b,03-JAN-2013,692,b,04-JAN-2013,752,b,05-JAN-2013,72""")df=pd.read_csv(csv,index_col=['DATE','ID'],parse_dates=['DA

多索 DataFrame 39 pandas code python

python - 使用 NumPy 对大型数组进行多次采样的有效方法？

如果您不关心我要实现的细节，请跳过下面的水平线我正在尝试使用NumPy对某些统计数据进行引导错误估计。我有一个数组x，并希望计算统计量f(x)的误差，误差分析中通常的高斯假设不成立。x非常大。为此，我使用numpy.random.choice()对x重新采样，其中我重新采样的大小是原始数组的大小，并进行了替换:resample=np.random.choice(x,size=len(x),replace=True)这让我对x有了新的认识。现在必须重复此操作约1,000次才能给出准确的误差估计。如果我生成1,000个这种性质的重采样；resamples=[np.random.choice

大型 python code random len numpy optimization statistics list-comprehension

python - Tensorflow 数据集 API 中的过采样功能

请问目前数据集的API是否允许实现过采样算法？我处理高度不平衡的类(Class)问题。我在想在数据集解析过程中对特定类进行过度采样会很好，即在线生成。我已经看到了rejection_resample函数的实现，但是这会删除样本而不是复制它们，并且它会减慢批处理生成的速度(当目标分布与初始分布有很大不同时)。我想实现的是:举个例子，看看它的类概率决定是否复制它。然后调用dataset.shuffle(...)dataset.batch(...)得到迭代器。最好的(在我看来)方法是对低概率类别进行过度采样，并对最可能的类别进行子采样。我想在线进行，因为它更灵活。

Tensorflow python prob prob_ratio dataset sampling tensorflow-datasets

python - 使用 scipy.signal.resample 重采样时间

我有一个信号不是等距采样的；为了进一步处理它需要。我以为scipy.signal.resample会做，但我不明白它的行为。信号在y中，相应的时间在x中。重采样预计在yy中进行，所有相应的时间都在xx中。有谁知道我做错了什么或如何实现我的需要？此代码不起作用:xx不是时间:importnumpyasnpfromscipyimportsignalimportmatplotlib.pyplotaspltx=np.array([0,1,2,3,4,5,6,6.5,7,7.5,8,8.5,9])y=np.cos(-x**2/4.0)num=50z=signal.resample(y,num,x

resample python scipy code section numpy resampling

python - Tensorflow 中的预定采样

关于seq2seq模型的最新Tensorflowapi已包含计划采样:https://www.tensorflow.org/api_docs/python/tf/contrib/seq2seq/ScheduledEmbeddingTrainingHelperhttps://www.tensorflow.org/api_docs/python/tf/contrib/seq2seq/ScheduledOutputTrainingHelperscheduledsampling的原论文可以在这里找到:https://arxiv.org/abs/1506.03099我阅读了论文，但无法理解Sch

Tensorflow 预定 section ScheduledEmbeddingTrainingHelper ScheduledOutputTrainingHelper python machine-learning deep-learning sequence-to-sequence

python - 以相同的方式对两个 pandas 数据帧进行采样

我正在使用两个数据帧进行机器学习计算-一个用于因子，另一个用于目标值。我必须将两者分为训练和测试部分。在我看来，我已经找到了方法，但我正在寻找更优雅的解决方案。这是我的代码:importpandasaspdimportnumpyasnpimportrandomdf_source=pd.DataFrame(np.random.randn(5,2),index=range(0,10,2),columns=list('AB'))df_target=pd.DataFrame(np.random.randn(5,2),index=range(0,10,2),columns=list('CD'))

python pandas source df_source target

python - 从 python 中具有固定数量元素的集合中进行非常快速的采样

我需要从固定大小的集合中随机均匀地抽取一个数字，进行一些计算，然后将新数字放回集合中。(需要的样本数量很大)我尝试将数字存储在列表中并使用random.choice()来选择一个元素，将其删除，然后添加新元素。但这太慢了!我正在考虑将数字存储在一个numpy数组中，对索引列表进行采样，然后为每个索引执行计算。有没有更快的方法来完成这个过程？最佳答案 Python列表在内部实现为数组(如JavaArrayList、C++std::vector等)，因此从中间移除一个元素相对慢:所有后续元素都必须重新索引。(有关更多信息，请参阅htt

中进 python code section performance random numpy random-access

python - 如何在scikit learn中进行欠采样？

我们有一个视网膜数据集，其中患病眼睛信息占信息的70%，而未患病眼睛占剩余的30%。我们想要一个数据集，其中患病和未患病样本的数量应该相等。是否有任何可用的功能可以帮助我们做同样的事情？最佳答案我会选择用PandasDataFrame来做到这一点和numpy.random.choice.通过这种方式，很容易进行随机抽样以产生大小相同的数据集。一个例子:importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.random.randn(7,4))data['Healthy']=[1,1

中进何在 section random code python python-2.7 dataset scikit-learn sampling

32 33 343536 37 38