草庐IT

中文名

全部标签

中文文本智能纠错知多少?

作者|徐婧扬,单位:中国移动智慧家庭运营中心​Labs导读中文文本纠错是针对中文文本拼写错误等进行检测与纠正的一项工作,是自然语言处理的重要应用领域之一。中文文本纠错的应用场景很多,诸如在搜索引擎,问答/对话系统,输入法等领域作为一个前置模块,或作为OCR和ASR检测的后置模块,亦或是公文写作场景,辅助进行公文审阅校对,纠错的质量对后续的处理非常重要。Part01  中文错别字类型有哪我们把常见的中文错别字总结分为三类:拼写错误,由于输入法,音转软件等原因导致的用字/词错误,其主要表现为错误使用了同音字,形近字等,也是纠错领域当前研究比较集中的方向;语法错误,该类错误主要是由于疏忽或对语言运用

微软 Windows 11 Beta 预览版 Build 22621.1465 和 22624.1465 发布,改进中文输入法

3月17日消息,微软今日面向Beta频道发布了 Windows11 InsiderPreview Build22621.1465和Build22624.1465 (KB5023775)预览版更新。Build22624.1465=推出新功能。Build22621.1465=默认关闭新功能。Build22624.1465中的新增功能引入更多语言的实时字幕实时字幕可帮助失聪或有听力障碍的人以其母语阅读实时字幕。Windows112022更新中的第一个实时字幕版本提供了英文字幕,重点是英语(美国)。在最新版本中,实时字幕还能够提供中文(简体和繁体)、法语、德语、意大利语、日语、葡萄牙语(巴西)、西班牙

微软 Windows 11 Beta 预览版 Build 22621.1465 和 22624.1465 发布,改进中文输入法

3月17日消息,微软今日面向Beta频道发布了 Windows11 InsiderPreview Build22621.1465和Build22624.1465 (KB5023775)预览版更新。Build22624.1465=推出新功能。Build22621.1465=默认关闭新功能。Build22624.1465中的新增功能引入更多语言的实时字幕实时字幕可帮助失聪或有听力障碍的人以其母语阅读实时字幕。Windows112022更新中的第一个实时字幕版本提供了英文字幕,重点是英语(美国)。在最新版本中,实时字幕还能够提供中文(简体和繁体)、法语、德语、意大利语、日语、葡萄牙语(巴西)、西班牙

警惕:针对中文用户的虚假安装程序正在盛行

近日,ESET的安全研究人员发现了一种针对东南亚和东亚华裔人群的恶意软件活动。攻击者通过在Google搜索结果中购买误导性广告,诱骗受害者下载安装木马安装程序。未知的攻击者创建了虚假网站,看起来类似于火狐浏览器、WhatsApp或Telegram等流行应用程序的网站,但除了提供合法软件外,他们还提供了一种远程访问木马FatalRAT,使攻击者能够控制受害的计算机设备。关键发现攻击者购买广告,将他们的恶意网站定位在谷歌搜索结果的“赞助”部分。在ESET向谷歌报告此问题后,谷歌已将这些恶意广告移除。这些网站大多数使用的是中文并且提供软件的中文版本,这表明攻击者主要针对的是华语人群。调查数据显示,受

警惕:针对中文用户的虚假安装程序正在盛行

近日,ESET的安全研究人员发现了一种针对东南亚和东亚华裔人群的恶意软件活动。攻击者通过在Google搜索结果中购买误导性广告,诱骗受害者下载安装木马安装程序。未知的攻击者创建了虚假网站,看起来类似于火狐浏览器、WhatsApp或Telegram等流行应用程序的网站,但除了提供合法软件外,他们还提供了一种远程访问木马FatalRAT,使攻击者能够控制受害的计算机设备。关键发现攻击者购买广告,将他们的恶意网站定位在谷歌搜索结果的“赞助”部分。在ESET向谷歌报告此问题后,谷歌已将这些恶意广告移除。这些网站大多数使用的是中文并且提供软件的中文版本,这表明攻击者主要针对的是华语人群。调查数据显示,受

弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源

距离ChatGPT的最初发布,过去差不多四个月的时间了。就在上星期GPT-4发布时,ChatGPT第一时间上线了新版本。不过众所周知的一个秘密是,不管是ChatGPT还是GPT-4都不大可能开源。加上巨大的算力投入以及海量的训练数据等,都为研究界复制其实现过程设下重重关卡。面对ChatGPT等大模型的来势汹汹,开源平替是一个不错的选择。本月初,Meta「开源」了一个新的大模型系列——LLaMA(LargeLanguageModelMetaAI),参数量从70亿到650亿不等。130亿参数的LLaMA模型「在大多数基准上」可以胜过参数量达1750亿的GPT-3,而且可以在单块V100GPU上运行

弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源

距离ChatGPT的最初发布,过去差不多四个月的时间了。就在上星期GPT-4发布时,ChatGPT第一时间上线了新版本。不过众所周知的一个秘密是,不管是ChatGPT还是GPT-4都不大可能开源。加上巨大的算力投入以及海量的训练数据等,都为研究界复制其实现过程设下重重关卡。面对ChatGPT等大模型的来势汹汹,开源平替是一个不错的选择。本月初,Meta「开源」了一个新的大模型系列——LLaMA(LargeLanguageModelMetaAI),参数量从70亿到650亿不等。130亿参数的LLaMA模型「在大多数基准上」可以胜过参数量达1750亿的GPT-3,而且可以在单块V100GPU上运行

Docker为清退开源组织道歉;任正非透露华为断供问题新进展;李开复亲自筹组中文版ChatGPT公司 | T资讯

一、商业圈1.李开复:亲自带队成立AI项目,打造世界级AI公司ChatGPT的火爆让AI成为最近一段时间最受关注的领域。据报道,前微软中国总裁、创新工场董事长兼CEO李开复宣布再次创业,自己亲自带队成立了一个AI项目,要打造世界级AI公司。李开复在朋友圈宣布,正在亲自筹组ProjectAl2.0,这是创新工场塔尖孵化的第7家公司,聚力打造Al2.0全新平台和Al-first生产力应用的全球化公司。李开复在朋友圈写到,“ProjectAl2.0不仅仅要做中文版ChatGPT”。新公司的资金、算力陆续到位,现在正式开启团队组建,首批广招大模型、多模态、NLP、AI算法工程与研究、分布式计算/Inf

Docker为清退开源组织道歉;任正非透露华为断供问题新进展;李开复亲自筹组中文版ChatGPT公司 | T资讯

一、商业圈1.李开复:亲自带队成立AI项目,打造世界级AI公司ChatGPT的火爆让AI成为最近一段时间最受关注的领域。据报道,前微软中国总裁、创新工场董事长兼CEO李开复宣布再次创业,自己亲自带队成立了一个AI项目,要打造世界级AI公司。李开复在朋友圈宣布,正在亲自筹组ProjectAl2.0,这是创新工场塔尖孵化的第7家公司,聚力打造Al2.0全新平台和Al-first生产力应用的全球化公司。李开复在朋友圈写到,“ProjectAl2.0不仅仅要做中文版ChatGPT”。新公司的资金、算力陆续到位,现在正式开启团队组建,首批广招大模型、多模态、NLP、AI算法工程与研究、分布式计算/Inf

改改 MongoDB 官网的中文翻译

用了几个月MongoDB,看了一百多篇英文文档,我刚刚才发现,MongoDB的官网其实是有中文版的。然而文档没有中文,还是得慢慢看。官网的中文一股直译的味道,让人怀疑是不是直接用翻译软件做的所谓"本地化"。我用Edge浏览器的翻译看了一下,大概率是在机翻基础上做了一定润色,但这个润色水平属实一言难尽。先看一眼英文版的官网:再看一眼中文版的:昨天我想看一下文档,于是我展开顶栏上的“产品”,然后在“工具”分类下发现了......VS代码插件(VSCode是一个专有名词,一款代码编辑器)我打开自己的VSCode,看了一眼侧边栏的叶子图标,决定写篇文章吐槽一下。下面我们一点点来改。顶栏Products