草庐IT

去重复

全部标签

string - 内存中字符串去重

上下文:我正在写一些东西来处理日志数据,其中涉及将几GB的数据加载到内存中并交叉检查各种内容,查找数据中的相关性并将结果写入另一个文件。(这本质上是加载到Druid.io集群之前的cooking/非规范化步骤。)为了性能和代码简单性,我想避免将信息写入数据库——假设在可预见的future数据量一次处理可以通过给机器增加内存来处理。我的问题是尝试在我的代码中显式删除重复字符串是否是个好主意;如果是这样,什么是好的方法。这些日志文件中的许多值都是完全相同的文本片段(粗略估计,文件中总文本值的大约25%可能是唯一的)。由于我们谈论的是GB数据,虽然ram很便宜并且可以进行交换,但仍然存在限制

multithreading - 解决 Go 中的重复互斥锁

我在一个Go程序中有一堆函数,这些函数在一个结构上工作,该结构使用互斥锁来管理对其函数的并发访问。其中一些对特定数据进行操作的函数需要锁,因此使用mutex.Lock()来获取管理对该数据的访问的互斥量。今天,当其中两种锁定方法相互调用时,我遇到了一个问题。一旦mutex.Lock()被第二次调用,它就会阻塞-当然。我面临的问题与这段代码非常相似:http://play.golang.org/p/rPARZsordIGo中是否有关于如何解决此问题的最佳实践?据我所知,递归锁在Go中不可用。 最佳答案 这似乎是您系统的设计缺陷。您应该

go - 删除紧随其后的重复字符

我正在尝试删除彼此紧接的重复字符。例如"Whyyyysooossserioooouuussss"应该翻译成"Whysoserious"在PHPPCRE中这是可能的$text=preg_replace("/(.)\\1+/","$1",$text);我试着做了以下varduplicateRegex=regexp.MustCompile(`(?P.)${char}+`)text=duplicateRegex.ReplaceAllString(text,`${char}`)Testonplay.golang.com但它似乎在go中不起作用。有任何想法吗?谢谢 最佳

go - 从谷歌存储加载文件时,在 bigquery 中使用 .Run(ctx) 重复记录

对于每天明智的分区,我们每3分钟将文件加载到bigquery中,每个文件的大小约为200MB。(.gz)。有时我会重复,但我不确定为什么。我已经验证输入文件只包含一次数据并且日志证明文件只被处理过一次。重复的可能原因是什么?在bigquery上传之前有什么方法可以阻止它吗?client,err:=bigquery.NewClient(ctx,loadJob.ProjectID,clientOption)iferr!=nil{returnnil,jobID,err}deferclient.Close()ref:=bigquery.NewGCSReference(loadJob.URIs.

go - 重复 formData 到 Go 结构

我正在提交一个重复表单,其中生成的formData被解析为:"Name":{"John","Jake"},"Phone":{"999-999-999","12312-123-123"},但是,我想构造成{Name:"John",Phone:"999-999-999"},{Name:"Jake",Phone:"12312-123-123"}.有人告诉我gorilla/schema,很合适,但我在下面尝试了它,它产生了一个空slice。有什么我想念的吗?packagemainimport("fmt""github.com/gorilla/schema")typePersonstruct{N

go - 网址重复

我想使用模式输出我的面包屑,但是@id重复URL两次,有时甚至更多?!因此,如果我访问about页面,我会看到:"@id":"http://localhost:1313/about/http://localhost:1313/about/",当我使用分页时,它会更多地重复URL:"@id":"http://localhost:1313/blog/http://localhost:1313/blog//http://localhost:1313/blog/http://localhost:1313/博客//http://localhost:1313/blog/http://localho

go - 在 Go 中测试生命周期。是否可以在不重复代码的情况下添加拆卸方法?

一个月前我开始使用Go。我来自java/kotlin背景,我想了解是否有可能实现我在这些语言中所做的一些相同的事情,即使是在Go中也是如此。我目前的问题是这个。我有一组集成测试用例,我需要在其中初始化一些东西然后清理资源:我相信这是一个常见的用例。如果可能的话,这是我想要实现的一些伪代码:foreachtest{initresourcesruntest{inittestresourcesexecutemethodundertestassert}cleanresources}目前,我可以尝试的是这种方法:funcTestMain(m*testing.M){setup()code:=m.R

正则表达式查找长度为 n 的重复数

我正在尝试使用golang正则表达式查找重复的数字。这是我试图找到长度为8的重复数字的内容。我试图按照Regextofindrepeatingnumbers上的建议进行操作。testString:="11111111"repetitive:=`^(\d)\\1{8}$`repetitiveR:=regexp.MustCompile(repetitive)ifrepetitiveR.MatchString(testString){fmt.Println("Match")}else{fmt.Println("Nomatch")}它总是给我结果“不匹配”。另一种方法很麻烦testString

go - 在反向代理中多次重复 http.Request

我正在实现http.RoundTripper在Go中,作为httputil.ReverseProxy的一部分实现。我需要缓冲传入的请求,并根据从后端获得的响应重复多次。为此,我使用request.Write和http.ReadRequest.(我其实不确定这是否是个好主意,如果有更好的方法,我很感兴趣。)使用http.ReadRequest反序列化来自[]byte的请求后并使用http.DefaultTransport的往返程序重复它,我在我的stderr中打印了这个:2019/08/0114:35:51http:proxyerror:unsupportedprotocolscheme

go - 使用 time.AfterFunc 在 golang 中按时间间隔执行重复性任务,只是一个示例

我只想在Go中做重复的后台任务,使用time.AfterFunc,但似乎逻辑有问题。输出只是:间隔调用间隔调用但如果一切正常,至少要调用该函数5次。packagemainimport("fmt""time""os""os/signal")typeTimerstruct{Queuechan*TimeCall}funcNewTimer(lint)*Timer{timer:=new(Timer)timer.Queue=make(chan*TimeCall,l)returntimer}typeTimeCallstruct{timer*time.Timercallbackfunc()}func(