想问一下UTAU有哪些参数？和VOCALOID一样吗？

点击联系发帖人 时间：2022-06-20 00:42

vocaloid怎么用

UTAU与其他歌声合成软件不一样的地方是什么？

UTAU合成的流程：根据输入取对应的音源文件（或，在有presamp的场合，根据presamp定义的用户字典取对应的音源文件）——根据oto.ini确定固定区和变化区——根据长度、音高、flag等参数对音源文件进行变化——将变化后的各个单独音素做overlap连接——输出。

在这个流程中，音源文件是开放的（不同于袅袅，CEVIO和VOCALOID），用户字典及音高字典（注：prefixmap，定义对应音阶下所取用的音高采样，CEVIO未知[不懂HMM……]，VOCALOID是预置的，通过极端pit可绕过，但效果一般）是开放的（不同于CEVIO和VOCALOID），固定区和变化区的设定是开放的（不同于CEVIO和VOCALOID），对音源文件进行变化的方式，同样是可选择的（不同于……我懒得说了……）。

在这些自由度的前提下，一个UTAU高手能做多少事情？

音源文件的开放——简单的降噪，修正错音，替换发音，随时追加表情包等；

用户字典及音高字典的开放——修正发音；在高音处选用低音阶音源以产生力度感或falsetto效果；更改一个字符的发音以取得特定的效果；追加语尾息、带有力度感的音头等只影响音符的一部分的特殊发音；局部换用表情音源；局部调整口型……

固定区和变化区设定的开放（通俗点就是可编辑的oto.ini）——调整复元音的发音速度；针对长音短音个别地调整延长部位置；临时取得一些特异采样（如在VCV日文音源的た-た采样中取得[a t]双音组，用于跨语种到英语的操作）……

对音源文件进行变化的方式的开放（通俗点就是可更换的引擎）——针对不同的音源基础，选择不同的合成方式，保证最好的合成效果。单工程多引擎的插件甚至可以使得高音中用保证力度的fresamp，低音中换用还原呼吸音的model4这样的极端情况成为可能。

这样说可能比较抽象，具体说一些例子，lz退圈已久所以臭屁地以自己的实际经验做一下例子，求别追杀……：

正在用刚发布的某著名音源的英语音源做歌，最后有一个长高音down~~~~~~，在英语音源的dAU（默认发音）开口度不够的情况下，换用开口度更高的daI（类似dye的发音，开口度高）+AU完成发音。到这里还是VOCALOID拼一下也能做的，最后一个高音daI也没这力气了，于是用了该音源之前发布的日语强音源的だ↑接AU完成发音，VOCALOID哭了……

2. 之前做的某中文音源单独音配布曲，最后有一个长，高，各种转的jiao，用音源本身的唯一采样jiao修改oto.ini，把延长部分别放在ia, a, a-----o, ao处oto出四种jiao分别用于发力，稳定拉长，转音和结束。后来意识到转音部分可能需要不止overlap的衔接，用wa的过渡部分oto出一个o-a的采样在第三个转音的地方过渡，然后为了使得声音更丰富点，用别的含有iao的音oto出一个听起来不太一样的iao也放在了里面，所以这个转音听起来就比较逼真了。

玩弄oto是po主最喜欢的一种方式，乃至不玩oto就不会调东西了……

顺带一提，这个音源po主当时oto的时候用一套短音源通过把延长部放在韵腹和韵腹+韵尾的两种不同方式oto了两套，供长音短音不同需求之用，可惜之后听这个音源投稿的作品，似乎没太多人用到，泪……

3. 用日语音源调过英文，虽然是黑历史了，不过各种送气辅音还是勉强调出来过的……

其实，既然上面所述的一切都是可变的，UTAU这个系统不变的核心是什么？

答案只有一个：overlap。（即通过淡入淡出的方式连接两个采样）

能意识到并巧妙利用这一点的人，才能称为是UTAU的高手。

在维基百科提到的五种基本歌声合成的方式里，通过连接方式合成是最基本的也是看起来最没有技术含量的，而在连接方式里面直接通过淡入淡出连接又是最容易理解的（po主的智商也只够理解这个了……

这种歌声合成方式到处都是局限，实际上，你不能在直接连接两个不同音素的情况下保证完美的过渡，这需要大量的调整，且在两个音都发声（元音或者发声辅音）的情况下，这非常困难。听听UTAU单独音的效果吧（。

然后有一位上帝出来了，他说，那就过渡连接两个相同音素吧！

于是有了，通过连接一个音过渡到下一个音的稳定部分而产生连续歌唱的效果的，从采样思路上领先VOCALOID整整三年的，连续音……

这位上帝叫：耳ロボP。

PO主狭隘的认知里面UTAU史上没有人的高手程度能与这位相比。（勉强可以与其相提并论的是实在受不了完全不想管自家孩子的飴屋P而给UTAU编写了早该有的自定义用户词典的delta巨巨。）

其实类似这样利用overlap扩充UTAU可能性的还有一样东西，不过说来可能离题远了，就是VOCALOID 4里C社引入的E.V.E.C机能。不展开去讲了，对UTAU略有了解的人，一看就知道这是来自UTAU的思路。

正是飴屋P一直没有把UTAU当作商业软件看的态度，造就了UTAU直到现在一直不以“易用”为主程序开发的基本方针，再加上始终开放的插件和引擎接口，才在技术不断向前发展的同时，保留下了UTAU如此强大的自由度。presamp的出现，使得UTAU调教在输入上正式对普通用户敞开了门槛，现在的UTAU，既对新手足够友好，又容许高手的存在，只要它的系统依然开放，各路高手发掘连作者都想不到的无限可能性的尝试就不会停止。

对答主个人来说，最符合个人审美的两个歌声合成系统就是VOCALOID1和UTAU。

嘛这是许久以来的怨念啦……………………借题发挥了。

以上结论适用所有兼容UTAU系统的音源（。

PIT啊音感之类的，其实是对所有歌声合成软件通用的“高手”标准啦，如果单提出来UTAU，大概不是特别典型了吧……

不过如果题主想听的是这个就请折叠我（。

最后，得瑟地……贴一下答主从前唯一拿得出手的两个作品：

}

关于以下所给出的意见，仅仅为一家之言，仅供参考，并不一定公正平等，最终取介于您。
Vocaloid、袅袅以及UTAU，有以下角度考虑。
从性能上进行考虑，肯定有经验的已经把UTAU排到最后了。没错，在性能上考虑，三者技术最成熟、性能最稳定的是来自日本YAMAHA的Vocaloid。只要考虑到是雅马哈的音像制品，一定就能让人感到沉稳。在性能上，Vocaloid是最终的决胜者。
B 语种（对于中国）：
从语种上进行考虑，Vocaloid 的中文声库比对袅袅的中文声库，局限性的确大了很多。目前看来，在中国大陆录制的由Vocanese代理的几乎所有声库都有逃离不了的噩梦：鼻音与读音。不管是最初期的洛天依，到今年刚刚制作完毕的由茶理理录制的新音源库，总体来看，总归在鼻音与咬字上十分欠缺。比如Shao会变成Chao，liu不能用liou代替，鼻音太重等重型问题。本人看来，现在最标准的完美的中文音源库是由台湾代理的“心华”。而袅袅，它的声库基本都是中文声库。UTAU暂且不提。
在开放性的角度上考虑，Vocaloid可就没那么好了。因为袅袅以及UTAU是支持自己录制声库的，而Vocaloid仅支持使用开发的音源库。
虽然在前面看到，语种评测中，Vocaloid占有下风，然而在除了由禾念科技代理的声库外，其他Vocaloid声库都是十分出色的。不管是自然性，还有Vocaloid独有支持的一些人性化参数调节、颤音调节等，深受使用者们的欢迎。袅袅和UTAU显然做不到技术这一点。此外，Vocaloid的音源库并不都是由自己制作的，比如有名的初音未来、镜音双子，是由crypton future media这一著名公司制作的。此公司不仅在制作声库上出名，而且在许多音频制作器以及乐器声库名扬世界前列。

综上所述：最终Vocaloid的综合素质比袅袅以及UTAU略胜一筹。

本回答由宝英光电科技提供

人声，走好不送　　　-- 绝对この后ろで污い取引してるな

下载百度知道APP，抢鲜体验

使用百度知道APP，立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。

}

快乐无忧网