腾讯开源黑科技识别技术:让图片也能“说话”

  YPS行业门户系统3月28日消息腾讯今日宣布开源多项多媒体AI技术,包含图片转语音技术、看图识字:OCR识别技术以及多角色定制语音:语音合成技术。

  图片转语音技术

  针对图片转语音技术目前已经在QQ空间App上线,针对视障用户,当使用智能手机时,能通过自带的读屏功能听到文字,可以识别图片的内容,并“说出”一句文字描述。

  ▲如图所示,软件可直接读出“一个人站在雾气缭绕的山顶上”。

  能听的图片:图片转语音技术

  它可以识别图片上的文字,比如身份证、指示牌、一张PPT的照片等等,能让你对文本信息的获取更为便捷,不仅在日常生活中很实用,结合语音技术还能为许多障碍人群提供便利;

  多角色定制语音:语音合成技术

  它能通过机器学习训练,将文字以特定角色的声音诵读出来,让语音合成更加真实有情绪、获取信息更加容易,未来也许能用你的声音为奶奶念出一份说明书;

  这些技术,都可以在微信小程序“多媒体AI平台”中找到。