您现在的位置是:首页>热点 > 正文
Mozilla更新公共语音数据集 现有18种语言1400小时语音
2021-02-07 03:27:27【热点】
简介 小编有点懵逼了,感觉现在天天都在写手机相关的消息。那么回头给大家推荐点其他的消息吧,应该还是有很多人感兴趣的,那么现在开始吧。
小编有点懵逼了,感觉现在天天都在写手机相关的消息。那么回头给大家推荐点其他的消息吧,应该还是有很多人感兴趣的,那么现在开始吧。
Mozilla希望让初创公司,研究人员和业余爱好者更容易构建支持语音的应用,服务和设备。为此,它今天发布了最新版本的Common Voice,这是一个开源的语音数据集,现在包括来自42000名贡献者超过1400小时的语音样本,涵盖18种语言,包括包括英语、法语、德语、荷兰语、Hakha Chin语、世界语、波斯语、巴斯克语、西班牙语、中文、威尔士语和卡布语。
Mozilla声称,它是同类语言中最大的多语言数据集之一,比8个月前公开的普通语音语料库要大得多,其中包含了2万名英语志愿者500小时,40万份录音,而且语料库很快就会扩大。该组织表示,70种语言的数据收集工作正在通过通用语音网站和移动应用程序积极开展。
通用语音可以集成到Deepspeech中,这是一套由Mozilla的机器学习小组维护的开源的语音到文本、文本到语音引擎和经过培训的模型,它不仅包含语音片段,还包含一些自愿者提供的元数据,这些元数据可用于培训语音引擎,如演讲者的年龄、性别等等。
为了简化流程,Mozilla本周推出了一款改进的Common Voice网络工具,可以根据不同的提示进行剪辑,还提供了用于查看、重新录制和跳过剪辑的新控件。此外,它还推出了新的配置文件功能,允许用户跨语言跟踪进度和指标,并添加人口统计信息。Mozilla表示,在接下来的几个月里,它将尝试不同的方法来通过社区努力和新的合作伙伴关系,增加数据的数量和质量。最终目标旨在为那些寻求构建和使用语音技术的人提供更多更好的语音数据。
在文章的结尾,小编要说一句题外话,这句话,很久以前就想说了。那就是科技是一顶耀眼的王冠,数码科技就是王冠上最耀眼的明珠。大家觉得小编的形容如何呢?大家若是有其他不同的看法,可以发表你的看法,与其他人一起讨论讨论。
相关文章
热点内容
6月29日中卫疫情最新确诊消息 宁夏中卫最近疫情最新消息数据
8月23日兰州最新疫情状况 甘肃兰州今日是否有新冠疫情
9月10日天水今天疫情最新情况 甘肃天水疫情最新状况确诊人数
8月16日承德目前疫情是怎样 河北承德疫情现在有多少例
5月2日宝鸡目前疫情是怎样 陕西宝鸡疫情最新累计数据消息
昵称男生高冷简短好听二字(男生昵称高冷二个字)
闪电有多粗(瘦成一道闪电有多粗)
9月29日烟台疫情情况数据 山东烟台疫情到今天累计多少例
10月22日武汉今日疫情数据 湖北武汉疫情累计有多少病例
12月15日甘南州疫情最新数据消息 甘肃甘南州最近疫情最新消息数据
老师有意思的课(老师有意思的课文)
空气炸锅蘑菇(空气炸锅蘑菇烤多久)
怎么选好的苹果(怎么选好的苹果耳机)
浴佛节在家怎么做(浴佛节应该做些什么)
大风吹倒梧桐树自有旁人说短长是什么意思(大风刮倒梧桐树自有旁人论短长这句话什么意思)