草庐IT

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

如果你手机里有一些修图软件,你可能用过里面的「AI绘画」功能,它通常会提供一些把照片转换为不同风格的选项,比如动漫风格、写真风格。但如今,视频也可以这么做了:这些动图来自X平台(原推特)网友@CoffeeVectors生成的一段视频。他把韩国女团BLACKPINK代表作《DDU-DUDDU-DU》的原版MV输入了一个AI工具,很快就得到了动漫版的MV。完整效果是这样的:这个视频是借助一个名叫ComfyUI的工具来完成的。ComfyUI是一个开源的基于图形界面的Workflow可视化引擎,用于被广泛采用的文生图AI模型StableDiffusion。它提供了一个用户友好的图形界面,可以将多个St

微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介,可以通过文本、视觉和音频等多种模态传递信息和内容。如果可以开发出能学习多模态数据的方法,就能帮助人们设计出具备强大能力的认知机器——它不会受限于经过人工调整的数据集,而是可以分析原生态的真实世界视频。但是,在研究视频理解时,多模态这种丰富的表征会带来诸多挑战,尤其是当视频较长时。理解长视频是很复杂的任务,需要能分析多个片段的图像和音频序列的先进方法。不仅如此,另一大挑战是提取不同来源的信息,比如分辨不同的说话人、识别人物以及保持叙述连贯性。此外,基于视频中的证据回答问题也需要深入理解

MySQL时间戳2038年灾难:你的数据还能撑过去吗?

Timestamp类型在MySQL中通常用于存储日期和时间。然而,Timestamp类型的一个限制是其存储范围,它使用4字节(32位)整数来表示秒数,从而导致在2038年01月19日03:14:07之后无法正确存储时间戳。这是因为32位整数最大可表示的秒数是2^31-1,即2147483647秒,相当于约68年。因此,如果使用了timestamp类型则需要考虑在达到时间范围前进行相应处理。一、案例演示1、创建测试表创建一张测试表,存储timestamp及datetime两种类型。CREATETABLEtb1(idINTNOTNULLPRIMARYKEYAUTO_INCREMENT,tsTIME

AI绘画:一分钟赚200,还能申请版权

我是卢松松,点点上面的头像,欢迎关注我哦!用AI可以写文章、写新闻稿、还可以绘画,现在AI都能赚钱了。这钱怎么赚的?请继续往下看:来自@水帘洞大圣自来水公司爆料:一个网友的AI绘画作品卖了1200元,而且买家知道是AI画的。作者偶尔在群里发一发作品,结果被大佬看上了,200一张图要了6张,之前只做了4张(还送人了一张),又生成了几张给对方选了几张凑够六张,爽快交易。作者还说第一桶金居然来的这么快,让人震惊,感觉机会确实很多。而且的“买家”知道这是AI作画的,但一直强调要“全版权”,然后他们通过一个会计算“版权使用费”“版权转让费”的站子进行了“版权”的交易。AI作画就有了名正言顺的“版权”,我

RPA除了和OCR、NLP技术结合,还能和什么技术结合?

鉴于业内现在也经常把RPA称为数字员工,就虚拟一个人的形象来解答吧。首先是头部,实现人的“听看说想”能力:听:ASR(语音识别技术),主要用于听取和理解语音输入,让RPA能处理语音数据,可以用在需要用户互动或者语音控制的系统中。看:OCR(光学字符识别技术),主要用于识别和提取图像或扫描文档中的文本,实现的是“看”文本部分功能,这个题主公司已经用到了,但还有一项CV(计算机视觉技术),这个技术主要用于识别、理解图像和视频,进一步补充RPA“看”的范围。想:NLP(自然语言理解技术),主要用于理解和处理文本数据,能让RPA更好地理解任务信息,从而实现更广泛的应用范围。此外,这部分还可以引入机器学

DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修

今天网上一段DALL·E3的教程火了,发布不到1天浏览量接近100万!作者在这段教程中,教用户如何在ChatGPT中,利用DALL·E 3生成图片后,直接用ChatGPT修改图片的细节。添加新元素、更改颜色等等操作都可以直接完成。DALL·E3=Midjourney+Photoshop,实锤了!图片就像上边的图片这样,直接在生成的某一张图片中添加了一只鹦鹉。第一步,生成第一张图片首先根据您想要的提示生成图像。 示例:「一个穿着蓝色连帽衫的孩子盯着镜头」。 提示: 用户还可以通过添加16:9/9:16来控制生成水平或者垂直图像。图片第二步,请求图像种子每个图像都有一个称为「种子(Seed)」的特

「转行程序员」30岁想转行还能做什么?月入两万职位大比拼

为什么写这篇文章有朋友就要问,30岁想转行,你还能做什么?这个问题对于从没了解过互联网行业的人来说,首先要直接互联网公司都有什么职位。互联网热门职位大比拼1.运营入门难度指数✭✩✩✩✩职位分类:用户运营产品运营数据运营内容运营活动运营商家运营品类运营游戏运营网络推广职位职责:1.分析和解决用户需求,提升用户的留存和活跃,引导用户不断产出优质内容;2.定期对各类型用户进行调研,梳理用户反馈,输出高效的解决方案;3.建立和运营用户社群,构建社群内部的良性生态,增强用户粘性;4.通过各种用户激励手段,达到短期和长期的运营目标。妹子居多,她们的爱好,喜欢程序员。2.产品入门难度指数✭✭✩✩✩职位分类:

Redis哨兵集群:哨兵挂了,主从库还能切换吗?

通过部署多个哨兵实例,我们构建了一个哨兵集群,这个集群中的多个实例共同协作,以降低对主库下线的误判率。然而,还有一个重要问题需要考虑:如果哨兵集群中的某个实例发生故障,主从库是否能够继续正常切换呢?实际上,一旦多个实例组成了哨兵集群,即使有个别哨兵实例出现故障而无法正常运行,其他健康的哨兵实例仍然能够继续协同工作,完成主从库切换的各项任务,包括判断主库的下线状态、选择新的主库,以及通知从库和客户端。如果你曾经部署过哨兵集群,你会发现,在配置哨兵信息时,我们只需要指定主库的IP和端口,而无需明确配置其他哨兵实例的连接信息。这是因为哨兵集群中的各个实例会相互感知和发现,形成一种自动协作的机制。se

MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑

大语言模型是世界模型,又添新证据!前不久,MIT和东北大学的两位学者发现,在大语言模型内部有一个世界模型,能够理解空间和时间。最近他们又有了新发现,LLM还可以区分语句的真假!图片论文地址:https://arxiv.org/abs/2310.06824第0层时,「芝加哥在马达加斯加」和「北京在中国」这两句话还混在一起。随着层数越来越高,大模型可越来越清晰地区分出,前者为假,后者为真。图片作者MIT教授MaxTegmark表示,恕我直言,这个证据表明,LLM绝不仅仅是大家炒作的「随机鹦鹉」,它的确理解自己在说什么!图片网友再次对这项工作表示震惊——人类的LLM显微镜越来越强大了!现在都能用特征

口型几乎完美、还能卡点,霉霉说地道中文的视频火了,背后AI工具原来是它

这两天,美国女歌星霉霉(泰勒・斯威夫特)一则说中文的短视频在各社交平台火了起来。有的播放量已经达到了600多万。在视频里,霉霉操着一口流利、地道的中文,神情自若,几乎没有早期译制片女主角的那种腔调,口型也能对得上。图源:微博@会火还没有看过视频的小伙伴们,我们先来一睹为快。视频作者:johnhuu教英语感觉怎么样,是不是很神奇呢?可以看到,不仅是霉霉,蕾切尔・布罗斯纳安、特朗普、艾玛・沃森、憨豆先生都掌握了一口正宗的中文。此外,小品演员蔡明在吐槽大会上「秀了一段流利的英文」。作者表示,视频制作中有三个重要的因素:掌握地道的口语翻译、语音克隆和替换嘴型,每个步骤都要做好。不过,他没有说明用到的具