腾讯开源黑科技识别技术:让图片也能“说话”
YPS行业门户系统3月28日消息腾讯今日宣布开源多项多媒体AI技术,包含图片转语音技术、看图识字:OCR识别技术以及多角色定制语音:语音合成技术。
图片转语音技术
针对图片转语音技术目前已经在QQ空间App上线,针对视障用户,当使用智能手机时,能通过自带的读屏功能听到文字,可以识别图片的内容,并“说出”一句文字描述。
▲如图所示,软件可直接读出“一个人站在雾气缭绕的山顶上”。
能听的图片:图片转语音技术
它可以识别图片上的文字,比如身份证、指示牌、一张PPT的照片等等,能让你对文本信息的获取更为便捷,不仅在日常生活中很实用,结合语音技术还能为许多障碍人群提供便利;
多角色定制语音:语音合成技术
它能通过机器学习训练,将文字以特定角色的声音诵读出来,让语音合成更加真实有情绪、获取信息更加容易,未来也许能用你的声音为奶奶念出一份说明书;
这些技术,都可以在微信小程序“多媒体AI平台”中找到。