太阳娱乐:搜狗创新发布微信首款个性化TTS小程序“故事大王”

太阳娱乐 18

太阳娱乐:搜狗创新发布微信首款个性化TTS小程序“故事大王”

原标题:拥有高质量的人机交互体验,离不开『定制化』语音合成

以语音合成为代表的AI技术已经在各行各业广泛应用,而语音合成技术的“情感化”,成为如今市场的迫切需求。

达摩院成立快两年之际,机器智能技术实验室抢先展示了一下成绩。

2019中国互联网大会于7月9日-11日在北京国家会议中心举行。本次大会以“创新求变再出发”为主题,开设物联网、人工智能等系列分支论坛,汇聚国内重点科研机构及众多知名互联网及人工智能企业。

太阳娱乐:搜狗创新发布微信首款个性化TTS小程序“故事大王”。中新网6月19日电
近日,搜狗上线了一款名为“故事大王”的小程序,它基于搜狗知音引擎的语音合成能力,首次将个性化TTS技术落地到微信当中。用户根据提示,录制5分钟左右的简短音频后,“搜狗故事大王”小程序就会自动生成用户的个性化合成音色,小朋友就可以听到用父母声音讲述的童话故事。

在人机交互中,语音交互已经成为必不可少的交互形式。自然、清晰、流畅的语音是交互体验中重要的一个环节,这就离不开语音合成技术。

捷通华声凭借深厚的行业及技术积累,重磅推出具有划时代意义的灵云情感语音合成技术,能够合成出带有语气、情绪等情感丰富、更接近真人的声音,并成功上线灵云平台,同时推出情感语音合成能力平台,让每一家企业都能轻松拥有更动听、更富感情的语音合成服务。

2017 年 10 月,阿里成立了达摩院,覆盖 5 个研究领域,建有 14
个实验室。除了上述的“机器智能”,达摩院研究大方向还有数据计算、机器人、金融科技、X
实验室。

太阳娱乐 1

太阳娱乐 2

极限元的语音合成技术采用国际先进的数据驱动技术,利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型深度挖掘了语音语言特性,合成的语音清晰、自然、亲切、具有高表现力,媲美真人发声。

太阳娱乐 3

机器智能技术实验室侧重于 AI
相关技术的基础研究,旗下设有语音实验室、视觉实验室、语言技术实验室、决策职能实验室、以及城市大脑实验室。

作为国内领先的人工智能语音合成及数据服务提供商,标贝科技应邀亮相大会,携语音合成解决方案、声音超市、语音合成语音评测系统、语音数据等系列产品服务,向现场观众展现语音合成效果及多场景方案解决,加速推进智能语音合成在商业场景落地。

颠覆传统“机器音”,搜狗独家提供个性化TTS技术

而随着人机交互市场需求的不断变化,定制化语音合成成为发展趋势。以人机交互中家庭生活场景为例,智能音箱算是一个典型应用,市场上的智能音箱同质化严重,销售情况并不乐观,抓住用户痛点,调动用户使用频次,或许也是提高销售的一种有效手段。试想,拥有同样功能的智能音箱,如果声音是嗲气的小姐姐,或者是呆萌可爱的童声,又或者是喜欢的偶像声音,无论是哪一种,这样真实丰满的人设声音,是不是更容易打动用户,从而调动用户的使用频次。

十多年深耕技术 引领行业变革

近日,达摩院机器智能技术实验室举办了一场小型媒体沟通会,几位技术专家向外界介绍了最新成果和进展。

太阳娱乐 4

在专业领域,技术员们把“文本文件向语音的实时转换”称为TTS功能。还记得“哪里不会点哪里”的点读机么?这个曾经风靡一时的儿童英语学习神器就应用了这款功能,点读笔扫描文本内容,再通过点读机转换成人声朗读出来。在其他诸如电子书阅读、语音导航、语音提示等领域,TTS功能的应用也十分广泛,但他们拥有一个共同的缺点,即只能实现文本向特定声音模板的转变,且声音质量较为呆板,机器感十足。

太阳娱乐 5

十多年来,捷通华声一直专注技术研发与创新,依靠国内领先的灵云语音合成技术,在国内智能语音市场占有率超50%:

太阳娱乐 6

标贝科技专注数据处理与语音合成业务,聚焦智能客服、智能音箱、机器人、阅读等核心语音应用市场,为图像算法及语音合成技术等类别客户,提供专业数据及语音相关服务。本次参会,标贝科技的语音合成技术及整体解决方案能力得到了集中呈现,获得了行业上游厂商、现场观众及媒体的关注和认可。

使用过“搜狗故事大王”的用户都知道,在该小程序上用户可以定制自己专属的个性化合成音色。然后就能随时随地的通过手机为小朋友讲故事了,听起来声情并茂、自然流畅,明显区别于以往的机器音。

极限元的定制化语音合成服务能够满足丰富的个性化声音设定,如林志玲的嗲气十足,郭德纲幽默逗趣,稚气呆萌的童声、游戏动漫角色声、各类方言等。极限元的定制化语音合成服务支持录音人选型、录音采集、语料标注,还能实现模型迭代训练、合成引擎优化,支持在线、离线模式,适用于多种平台,可应用于多个领域。全方位地为有需要的企业和用户提供专属声音,满足用户在不同应用场景下的个性化音色需求。只需要提供少量发音人样本,通过快速自适应训练,即可合成出高自然度的个性化语音,极大的增强了用户的体验感。

2001年,捷通华声推出代表国际领先水平的jTTS世纪版;

兼具表现力和稳定性的语音合成技术

太阳娱乐 7

这都得益于搜狗知音引擎独创的个性化TTS合成技术,与传统技术相比,“搜狗故事大王”具有高表现力,更趋于真人口音。此外,除了可以定制个性化声音,还能使用该声音实现任意文本的合成,搜狗是目前成功将两项技术进行完美结合并成功落地的公司。

极限元语音合成技术专业MOS分可达4.0,拥有标配版女声和男声,女声包括标准型甜美型、萝莉型;男声包括标准型、浑厚型、清爽型。极限元已与百度、腾讯、搜狗、奇虎360、语文出版社等众多客户建立了长期稳定的合作关系。

2007年,捷通华声成为建行、农行的唯一语音合成供应商;

首先,机器智能技术实验室正式发布了新的语音合成技术 KAN-TTS(KAN 指的是
Knowledge-Aware
Neural)。TTS(Text-To-Speech,文本到语音)是一种将文字转化成语音的技术,智能音箱、个人虚拟助理都需要这种技术支持。

声音超市+语音合成方案解决即时及定制语音合成需求痛点

依托个性化TTS技术,“搜狗故事大王”对用户录制声音的要求很低,不需要去专业录音室、不需要长时间录制。用户只需5分钟左右的操作,搜狗的后台技术模型就能自动精准排除噪点,完美复制原始声音的各项数据,合成专属定制的个性化音色。该合成音色的朗读效果与真人相似度极高,可以做到“以假乱真”的地步。

太阳娱乐 8

2008年,灵云多语种语音合成技术成功服务北京奥运会;

达摩院机器智能语音实验室高级算法专家雷鸣介绍,当前业界商用系统的合成语音与原始音频录音的接近程度,通常在85%到90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

活动现场,标贝科技通过“你说我学”及“声音超市”这两个语音应用产品,展现高质量语音合成效果及合成方案能力。

坚持创新,克服难关,个性化定制终实现

让声音富有情感和表现力,一直是语音合成技术的一大难点。而极限元在情感语音合成领域,与国际接轨,其创始团队源自中科院自动化研究所并成立“智能交互联合实验室”,号称语音合成界的“黄埔军校”;在人工智能领域有近20年技术积累,在国际会议和期刊上发表论文400余篇,申请语音及音频领域专利100余项;作为负责人、科研骨干参与多项国家自然基金项目、国家863项目和国家重点研发计划等项目,获得音视频情感竞赛第二名、北京市科学进步二等奖、中国专利奖优秀奖、Eurospeech大会奖等多种奖项。

2010年,上海世博会采用灵云语音合成技术播报赛事;

简单来说,KAN-TTS 合成的语音更加像真人的语音,“接近真人韵律的感觉”。

随着AI语音技术的逐渐成熟,语音交互将成为重要的人机交互方式。而语音合成则是实现语音交互的重要一环,具有有广阔的应用场景。业内人士认为,即时性及个性化的语音定制,将是语音合成应用的未来走向。

搜狗独家推出的个性化TTS技术,在技术研发层面具有很多的挑战。

极限元致力于为呼叫中心、智能机器人、智能家居、车载导航、有声读物等相关应用场景提供更加优质的语音合成服务,为用户提供高质量的智能交互体验。返回搜狐,查看更多

2015年,捷通华声已成功为上千家企业提供语音合适技术……

太阳娱乐 9

与传统流程化定制语音形式不同的是,标贝科技拥有行业领先的端到端语音合成技术,利用自有的海量文本数据和音频数据,以及深度学习技术、高精度数据自动预处理技术,推出了“声音超市”市这一整套解决方案。

首先,声音来源的清晰度直接影响后续音色的定制。但不可避免的是,日常生活中通过普通录音设备,很难收集到噪音小、音质清的声源。个性化TTS技术集成了搜狗知音引擎已有的信噪比检测、口语评测、识别、降噪、去混响、高稳定性声学参数提取与模型自适应、深度学习平台等多项前沿技术,并在此基础上进行了突破。最终,“搜狗故事大王”终于交出一份满意的答卷,让用户无需去专业录音室录音,在卧室、会议室和甚至车内等常见的环境下就可以进行声音采集。

责任编辑:

如今,全新推出的灵云情感语音合成技术,让捷通华声能够更好地服务于金融、电信、能源、交通、政府、医疗、互联网等各领域,全新体验的语音合成产品能够引发行业内巨大变革,推动合成技术跨越式发展。

“我们新一代的 TTS 解决方案深度融合了传统 TTS 和端到端
TTS,基于不同领域的深层 Knowledge。”雷鸣介绍道。

客户从“声音超市”中选择声音,无须再经历定制的流程,便可拥有一套专业的语音合成解决方案。该产品汇集百余种音色,涵盖多种风格、特色和场景,通过所听即所得的方式,满足企业即时应用高质量合成语音的需求。目前应用市场覆盖智能客服、有声读物、虚拟形象等领域,有效降低了客户的声音使用成本,提升了效率,改善了用户体验。

其次,如何为机器声音赋有情感神经也是一大技术难点。人类拥有丰富的语言情感表达能力,是因为人的大脑皮层中有140亿个神经元,模拟这样一个人工智能大脑是不可能的。但是搜狗研发团队找到了另一个开发途径,一款基于人工智能的新技术——多目标学习技术。该技术可以同时学习三个目标对象,分别是表征音色的“说话人编码器”、表征内容的“文本编码器”和表征表现力的“风格编码器”,再经过模拟融合进行表现力迁移,为呆板的合成声音注入情感,使其听起来更真实。

不论是智能客服、地图导航、机场广播的甜美女声,新闻播报、听书朗读的清爽男声,智能家电、机器人的可爱童声,捷通华声通过为企业提供稳定便捷的情感语音合成能力平台,都能让有各种需求的企业快速拥有更具竞争力的产品,让社会大众能够体验到富具情感、更声情并茂的听觉体验。

所谓端到端
TTS,即不依靠领域知识,基于强大的深度学习模型、海量数据来生成音频,优势是大大节省设计的工作,并且得到更加流畅、表现力更好的合成语音,但需要大量计算力支持,而且会出现丢字、漏字等不稳定的情况。Google
的 Tacotron 和 DeepMind 的 WaveNet 都是典型的端到端 TTS 模型。

太阳娱乐 10

最后,搜狗还采用了国际领先的波形合成模型WaveRNN,让最终输出的音质拥有更好效果。

太阳娱乐 11

而传统 TTS
需要花费大量时间和精力去了解相关的领域知识,设计难度较高,但胜在合成的语音比较稳定。

在定制化合成方面,标贝自主创新打造高质量语音合成方案,基于自有的海量文本数据和音频数据,及深度学习技术、高精度数据自动预处理技术,利用储备优质发音人资源进行专业语音合成音库制作,适用于多行业、多领域、多场景,满足企业高质量声音的定制需求。

至此,“搜狗故事大王”这款小程序可以完美实现用户声音的个性定制,并通过这个AI合成声音声情并茂地为小朋友讲故事了。“故事大王”作为搜狗知音引擎在人工智能领域开发出的又一创新应用,除了为当代人的日常生活提供了更大便捷性,也为智能科技研究领域提供了新选题,比如为未来人工智能机器人的开发提供语言系统搭建的参考,让机器人言谈更富情感,影视剧中的人机共享智能未来将成为现实。

声情并茂 全新技术业内领先

通过将传统 TTS 和端到端 TTS 的结合,KAN-TTS
结合了两者的优势,充分利用不同领域的深层
Knowledge,合成表现力和稳定性具佳的语音。

据官方介绍,标贝自有的合成系统包括多种语音合成、在线语音合成、离线语音合成、多音色合成、个性化语音定制、本地化部署等。而数据服务对象包括百度、阿里巴巴、腾讯、滴滴、京东、字节跳动、搜狗、喜马拉雅FM等众多企业。

灵云情感语音合成技术的先进性,源自于最新采用的深度学习技术建模,连同高音质声码器,产出个性细节丰富的声线效果,语气感真实。

针对不同的需求,机器智能技术实验室提供了“开箱即用”的 TTS 产品,覆盖 5
大场景(通用场景、客服场景、童声场景、英文场景和方言场景),具备 34
个高品质的声音。

太阳娱乐 12

声学模型训练方面:高鲁棒性预处理和建模框架,降低了以往对录音风格和稳定性的严格约束,普通人自然讲话、刻意带情绪讲话、角色模仿讲话,均可训练出保真、稳定的效果。

太阳娱乐 13

数据服务技术助力商业场景落地

语音合成效果方面:灵云情感语音合成技术已经发布多样、个性的音色库:童声既有夸张俏皮的卡通配音,也有真实小孩的呆萌学语;女声既有林志玲般的嗲音气语,也有丹气十足的磅礴宣读;男声既有新闻主播型的正气播报,也有网络主播型的地气贫嘴,为各种应用场景提供合适的声音。

除了“开箱即用”的声音,达摩院这个语音合成方案还能让专业用户定制声音。

在活动上,标贝通过专业问答、案例等形式,展现自身在语音定制、合成方案解决商应有的专业度。而这背后体现的是则是标贝科技拥有扎实且深厚的数据资源基础和应用能力。

多语种合成方面:灵云语音合成技术已全面支持中文普通话、粤语、维吾尔语、英语、日语、德语、法语等21种语言。完备的用户自定义体系,可弥补基础合成的不足,保证合成效果稳定在高水准;中文腔调读英文的自定义词表,保证中英文混杂时的无缝自然过渡。

传统语音合成定制需要10小时以上的数据录制和标注,对录音人和录音环境要求很高。“从启动定制到最终交付,需要半年时间”。而达摩院利用Multi-Speaker
Model与Speaker-aware Advanced Transfer
Learning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。

据标贝相关负责人介绍,标贝科技从三个方面,建立自己的竞争壁垒,提升竞争力:数据壁垒、广泛布局声音类型IP、技术上寻求新突破。在数据生产方面,标贝拥有完整的语料设计、采集、标注、转写、加工处理、优化的能力,实现快速产出高质量的人工智能数据。显然,数据不仅是标贝产品架构重要的底层基础,还是参与市场竞争的有力武器。

灵云情感语音合成技术采用高度自动化的数据加工标注,用户提供自己喜爱的录音,即可快速定制出音库。同时,捷通华声十多年来积累了大量的领域词库、预选音库,可为金融证券、天气预报、体育赛事、公交汽运、航空、税务、POI、排队叫号等众多领域提供更专业的语音合成播报。

也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS
定制。

太阳娱乐 14

太阳娱乐 15

此外,普通用户也可以自己定制“AI声音”,只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。

事实上,语音合成技术需要大量语音数据做支撑,而标贝核心的优势则是语音数据。这来自于标贝科技早期专注为语音合成类厂商提供数据服务的经验,让客户专心于合成技术的研发,快速实现高质量的合成系统。

私有云平台 技术接入更便捷稳定

太阳娱乐 16

以上负责人指出,无论是语音合成方案、声音超市还是语音合成评测系统方面,数据处理已深入贯穿在每一个环节当中。只有当数据基础足够扎实才能跟技术充分融合,才会呈现给用户悦耳动听的声音。

除了在灵云平台上,利用SDK为产品接入情感语音合成技术,捷通华声为方便企业及系统集成商整合、调用语音合成能力,推出灵云情感语音合成能力平台,通过提供标准协议接口,以私有云的形式方便企业快捷、稳定地将灵云语音合成能力集成到各种应用系统中。

语音、自然语言、视觉各领域都有新成绩

以合成方案为例,在大量语音数据为基础上,通过高精度自动预处理技术对数据进行处理和建模,再配以Attention机制为基础的高质量语音合成系统,才会打造出声音流畅度和自然度上均为理想的语音合成解决方案。

平台采用统一的负载均衡设计,合理调度服务资源,实现资源利用率最大化,核心服务支持多点热备,无单点故障,可保障平台稳定、高效运行;

除了公布新语言合成方案,机器智能技术实验室还亮出了新成绩。

在语音合成评测系统上。数据同样扮演者着重要角色。凭借在数据处理能力的深厚基础,标贝科技通过算法+专业的人工数据处理方式,使得其语音合成声音贴近人声,加上自主研发了一整套的语音合成测评系统,帮助客户在短时间内找出问题、原因和解决方法。

同时,平台标准架构以及完善的系统设计,充分考虑了大规模语音应用的需求,具备良好的伸缩性,可方便企业用户实现快速无缝化的产品演进。

机器智能技术实验室透露,阿里AI在国际顶级技术赛事上获得了40多项世界第一,入选了近400篇国际顶会论文。具体到细分领域,机器智能技术实验室最近都有不同建树。

尽管语音合成技术水平尚在发展之中,但语音合成技术与智慧生活的结合是不可否认的趋势。数据服务技术,技术服务生活,二者充分融合,才会加快语音合成商业场景的真正落地。

灵云情感语音合成技术的推出,让更多应用灵云语音合成技术的企业产品及服务在全行业实现革命性升级,助力提升企业核心竞争力。捷通华声也将继续秉承“合作共赢”的发展理念,携手合作伙伴,共同推动灵云情感语音合成技术在各领域的普及应用,用更动听、更富感情的声音为亿万大众的工作与生活带去轻松与便捷。

语音领域,2019年1月机器智能技术实验室在国际顶级对话系统评测大赛上获得双料冠军,将人机对话准确率的世界纪录提升至94.1%,并于2019年7月开源了创造这一记录背后的人机对话模型
ESIM。

事实,该算法模型提出了两年多,已被包括谷歌、facebook在内的国际学术界在200多篇论文中引用。

太阳娱乐 17

自然语言理解方面,机器智能技术实验室在 6 月的 MS MARCO
文本阅读理解挑战赛中,击败了
Facebook和微软,创造了阅读理解能力测试的新纪录,并在开放域问答任务上超越人类阅读水平。

MS MARCO 挑战赛是 AI 阅读理解领域的权威比赛,参赛机构提供的 AI
模型需要在搜索引擎返回的网页文档中,找出 100 万个问题的正确答案。

阿里方面介绍,阿里 AI 模型的突破在于提出了基于 “融合结构化信息 BERT
模型” 的
“深度级联机器阅读模型”,可以模仿人类阅读理解的过程,先对文档进行快速浏览,判断,然后针对相应段落进行精读,并根据
“自己的理解” 回答问题。

达摩院机器翻译技术团队已实现了48个语言翻译方向,支持俄、西、法、阿、土,泰、印尼、越南等多种语言翻译,其中电商覆盖了大部分语向和场景,超越了谷歌和亚马逊,日调用量达到17.9亿次。

太阳娱乐 18

在机器视觉领域,机器智能技术实验室在图像搜索、大规模图像识别、视频分析、线下视觉智能等领域都有所建树。其中,图像搜索领域,阿里
AI 的向量引擎比Facebook快6倍。

机器智能技术实验室在 6 月份刚刚结束的 WebVision 竞赛中,阿里 AI 以
82.54%
的识别准确率,击败了全世界150多支参赛队伍,获得冠军。机器智能技术实验室称,阿里
AI 目前可以识别超过 100 万种物理实体。

WebVison 是目前图像识别领域最权威的竞赛之一,专注于物体识别,被誉为接棒
ImageNet 的大规模图像识别竞赛。

7
月,在CVPR2019举办的LPIRC(低功耗图像识别挑战赛)中,阿里AI获得在线图像分类任务第一名。在挑战赛使用的训练数据集上,阿里AI实现了67.4%的分类精度,比官方提供的基准线高3.5%。

值得注意的是,上述只是达摩院旗下机器智能技术实验室的进展和成绩。到 2019
年 10 月达摩院两周年之际,会有更加全面的消息公布。

admin

网站地图xml地图