作为国际巨星,「霉霉」在中国有不少粉丝,粉丝都知道「霉霉」不会讲篇幅很长的中文,想听她说中文那像盼过年似的。
让「霉霉」随时讲中文?AI帮「霉粉」们实现了。
翻译和配音演员要失业了HeyGen免费试用申请
▲HeyGen网站
以前,我们想听一个外国人说中文,需要内容校对,专人翻译和选人配音三个步骤,最后得到的是有点儿违和的翻译腔语音,体验并不好。
那么不同母语的人说任意其它语言,可以吗?
当然可以。
▲AI一出马,苹果公司的印度身份藏不住了
这项技术的商业前景想像力充足,可用于译制国外大片和影音资料、转播新闻、直播发布会和直播带货等等。
AI语音大爆发今年1月份,微软发布了一款人工智能工具VALL-E,具有上下文学习的能力,只需一个人3秒的特定音频作基础,即可模仿这个人的声音开始长篇大论,复制出这个人的音色、环境混响、情绪和语气。
▲VALL-E
到了今年秋天,AI语音更进一步,iPhone上的「个人声音」功能支持用户把iPhone放在约1.5米远的地方录制约一个小时的音频,接下来用户就可以使用「另一个自己的声音」和他人交流。
可以预见,未来苹果生态中许多功能会和「个人声音」功能产生联动,例如VisionPro的虚拟形象等。
国内企业也在发力AI语音功能,百度地图推出了AI向导,由文心一言提供大模型服务,集行程助理、本地向导、聚会达人、办事专家、城市导游、专属陪练和专属向导为一体,已经大大超越了传统语音导航的体验。
网易推出了HiEcho英语口语教练小程序,口语水平极高,知识面极广,发音无限拟真,交流几乎无场地和时间限制,像人类一样有智慧,还不需要高额学费,让曾从事K12教育行业的我为英语教师捏了一把汗。
▲左:百度地图AI向导。右:网易HiEcho英语口语教练
AI声音有了「灵魂」谈到AI,绕不过去的就是ChatGPT。
前不久,ChatGPT上线了语音功能,和以前一些AI机械声不同,它的声音拟真到了令人毛骨悚然的地步。
它说话时,会加上一些组织语言的「emm」再说话,出现短暂停顿和轻微的呼吸声,更会结合语境进行语气处理,让语言有自然流露的情感和态度立场。
它甚至有口音,有口齿音,有卷平舌和鼻音边音瑕疵,有重音,会调节不同字词句的语速。
你还可以告诉它,「假设你是一个渣男,用渣男的语气和方式哄正在生气的女朋友开心」。
前一秒还是「正经人」的AI立即换成渣男气泡音,叫女朋友宝贝,哄女朋友喝水,还给女朋友画饼带她出去吃好吃的。
只要我们给AI一个人设,它接下来的应答都会匹配合适的声音,真实感几乎以假乱真。
它不是「花瓶」如果AI止步于此,倒也不会令人多么惊奇,如果它有了智慧呢?
对于不少人来说,在职场重大场合如何敬酒讲话是个大难题,不过这完全难不倒AI。
有人测试过,让AI在有5个领导的场合下敬酒说话,AI是这样回答的:
这番回答通过细微地用词不同暗示了各位领导的地位,也点明了各位领导的团队贡献,除非有领导故意穿小鞋,否则挑不出什么大毛病。
即使拟人声音、角色扮演和智慧应答融为一体,可是还是有人会说和真人还有差距,往往我们忽略了一点:
在评判AI和真人差距时,我们总会以能想象的人类最高水准作为及格线去评判AI,可具体到现实世界的一个个普通人,我们真能在仅仅几秒的思考后,每次都情绪稳定、字正腔圆、语音声调恰当、表意近乎完美地去说出一番话吗?
扪心自问,毫无准备的情况下至少我做不到,至于正在看这篇文章的你,内心应该有个答案。
客观来说,AI在某些方面已超过绝大多数普通人类,只是我们不承认而已。
在享受AI语音为我们带来便利的同时,不少人也开始担心一些问题。

几年前为防范诈骗,很多人在收到文字转账或借款消息时,往往会打一个电话确定对方是不是本人,现在这个方法渐渐失灵了。
随着算力和算法的进步,现在仅需秒级音频即可无限拟真,复制一个人的声音这件事变得越来越简单,衍生了诸多问题。
今年10月,TikTok上「AI奥巴马」用着奥巴马的人类思维方式、脸和声音,驳斥着有关他的阴谋论。
▲2017年百度AI曾生成的奥巴马.图片来自:百度AI(微博)
这个AI奥巴马的声音是使用一款名为ElevenLabs公司开发的工具生成的,该公司去年年底推出了免费的人工智能文本转语音工具,能够在几秒钟内生成逼真的音频。
颇具黑色幽默的是,ElevenLabs公司还有一款AI检测工具,能够识别AI内容,似乎和PC时代的杀毒软件有异曲同工之妙。
▲ElevenLabs网站
《》进行了一番测试,ElevenLabs的AI检测工具可以成功识别TikTok帐户中的AI音频,但如果AI音频中添加了音乐或者音频文件有一定程度失真时,检测就失败了。
由此可见检测工具道高一尺,AI技高一丈。
AI应答、AI人脸和AI图像犹如女娲一样捏出了「新人类」,现在出现的极度成熟的AI声音则给「新人类」注入灵魂。
▲华语AI顶流孙燕姿
一方面,我们享受着AI孙燕姿、AI霉霉、AI向导、AI英语教师等带来的便利。另一方面,如何防范AI使用者扭曲内容本意或造假内容变得越来越困难。
利弊几何,不如请「霉粉」们来说一说,你们是想要一个说着英文的真人「霉霉」,还是想要一个说着中文的「AI霉霉」?