草庐IT

学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转

我们平时在阅读论文或者科学文献时,见到的文件格式基本上是PDF(PortableDocumentFormat)。据了解,PDF成为互联网上第二重要的数据格式,占总访问量的2.4%。然而,存储在PDF等文件中的信息很难转成其他格式,尤其对数学公式更是显得无能为力,因为转换过程中很大程度上会丢失信息。就像下图所展示的,带有数学公式的PDF,转换起来就比较麻烦。现在,MetaAI推出了一个OCR神器,可以很好的解决这个难题,该神器被命名为Nougat。Nougat基于Transformer模型构建而成,可以轻松的将PDF文档转换为MultiMarkdown,扫描版的PDF也能转换,让人头疼的数学公式

ChatGpt对于学术和程序员的影响

什么是ChatGPT?我请这个当下很受欢迎的AI自己解释一下,它已经在学校、公司董事会和社交媒体上引发了热议。 在它自己的描述中,ChatGPT是“一个由OpenAI开发的人工智能聊天机器人,基于GPT(生成预训练转换器)语言模型。它使用深度学习技术,以对话的方式对文本输入产生类似人类的响应。有人认为ChatGpt将与Google一样在日常生活中频繁使用。时代是朝前走的,发展不是情怀的敌人,相反,只有发展才会给情怀创造基础。                                        ——人民日报目录ChatGpt简介(What'sChatGpt?)ChatGpt对于学术的影

GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用CSDN平台,自主完成项目设计升级,提升自身的硬实力。专栏订阅:项目大全提升自身的硬实力[专栏详细介绍:项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域)GPT学术优化(GPTAcademic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GP

阿里达摩院开源大型端到端语音识别工具包FunASR | 弥合学术与工业应用之间的差距

本文首发于微信公众号CVHub,严禁私自转载或售卖到其他平台,违者必究。Title:FunASR:AFundamentalEnd-to-EndSpeechRecognitionToolkitPDF:https://arxiv.org/pdf/2305.11013v1.pdfCode:https://github.com/alibaba-damo-academy/FunASR导读本文介绍了一个开源语音识别工具包FunASR,旨在弥合学术研究和工业应用之间的差距。FunASR提供了在大规模工业语料库上训练的模型,并能够将其部署到应用程序中。工具包的核心模型是Paraformer,这是一个非自回归的

网络安全学术顶会——S&P 2023 议题清单、摘要与总结(下)

注:本文由ChatGPT与Claude联合生成121、QueryX:SymbolicQueryonDecompiledCodeforFindingBugsinCOTSBinaries可扩展的静态检查工具,如Sys和CodeQL,成功地发现了源代码中的错误。这些工具允许分析人员编写应用程序特定的规则,称为查询。这些查询可以利用分析人员的领域知识,从而使分析更准确和可扩展。然而,大多数这些工具不适用于二进制分析。一个例外是joern,它将二进制代码转换为反编译代码,并将反编译代码馈入普通的C代码分析器。然而,这种方法对于符号分析来说不够精确,因为它忽略了反编译代码的独特特征。虽然二进制分析平台,如

python - 使用 tor 和 python 抓取谷歌学术搜索

我正在从事一个分析期刊文章被引用方式的项目。我有一个很大的期刊文章名称文件。我打算将它们传递给GoogleScholar,看看每个都有多少引用。这是我遵循的策略:使用http://www.icir.org/christian/scholar.html中的“scholar.py”.这是一个预先编写的python脚本,用于搜索googlescholar并以CSV格式返回第一次命中的信息(包括引用次数)Googlescholar在搜索一定次数后屏蔽你(我有大约3000篇文章标题要查询)。我发现大多数人使用Tor(Howtomakeurllib2requeststhroughTorinPyth

python - 使用 Python(或 R)提取谷歌学术搜索结果

我想使用python来抓取googlescholar搜索结果。我找到了两个不同的脚本来做到这一点,一个是gscholar.py另一个是scholar.py(那个可以用作python库吗?)。现在,我或许应该说我是Python的新手,如果我错过了显而易见的内容,我深表歉意!问题是当我按照README文件中的说明使用gscholar.py时,结果是query()至少需要2个参数(给定1个)。即使我指定了另一个参数(例如gscholar.query("myquery",allresults=True),我也会得到query()至少需要2个参数(给定2个)。这让我很困惑。我还尝试指定第三个可能

网络安全学术顶会——S&P 2023 议题清单、摘要与总结(上)

总结本文总结了196篇近期涉及网络安全领域的研究论文。主要可分为以下几类:隐私保护,涉及到匿名认证、隐私保护机器学习等机器学习安全,主要研究对抗样本和隐蔽后门等问题浏览器和网络安全,涉及指纹识别、端到端加密、网站选择标志等嵌入式系统安全,主要针对IOT安全操作系统和软件安全,滥用漏洞检测和代码审计等混合加密和安全多方计算区块链安全,包括以太坊和比特币等密码学相关,如zksnarks、零知识证明、匿名数字证书等热门领域:对抗样本研究。众多论文针对对抗样本进行分析、建模和提出新的应对机制。隐私保护联邦学习。研究如何在保护隐私的前提下实施联邦学习。浏览器安全。包括指纹识别、网站选择标志和端到端加密等

ChatGPT写的论文有多少发表了?搜完谷歌学术以后我慌了

ChatGPT出现以后,很多学术机构都发出了禁令,因为这种AI虽然生成能力强,但有时会胡说八道,滥用大模型写文章也违背了做研究的初衷。但随着大模型的应用浪潮,我们很快忘记了刚开始的恐惧。有学术机构正在解禁,微软也计划在年内把ChatGPT整合到Office全家桶里。或许过不了多久,人人都可以用大模型去写文章。这让人不得不去想象以后的学术论文会被AI生成的内容冲击成什么样。其实,这种事可能已经在发生了。今天,有个斯坦福本科生在谷歌学术搜索(GoogleScholar)上就发现了这类「浑水摸鱼」的掺假论文。当你输入「“AsanAIlanguagemodel”-“ChatGPT”」搜索时,会搜到很多

如何搭建中科院的基于GPT的学术优化工具

有很多公司和学校都借助GPT进行了二次开发,得到了许多有趣的玩意儿。国外也有不少分析病理报告的接口工具。我最近发现一个很火的工具,是中科院借助GPT开发的学术优化工具,在经过一晚上的反复折腾,终于能够成功使用了。中科院的这个项目也是参考自一些其他方法,提供了一个比较好的二次开发解决方案,目前已经八千多的星标。但是由于目前只能借助GPT3.5-turbo,所以功能上还有待提高。本文介绍如何搭建开发环境来使用这个学术优化工具。主要难点就是OpenAI不支持国内使用,因此需要修改一些配置。在这里我将比较完整的配置过程介绍一下:首先,需要注册一个ChatGPT(OpenAI)的账号。注册需要梯子尽量为