会为什么有块的音？

点击联系发帖人 时间：2022-07-18 00:46

6连音弹多快

大家好，我是胖小魚。前段时间打开支付宝看到全民攒金币活动，活泼的小人与微动的动效让我忍不住点了进去，然而玩了一次又一次… 半小时就这样没了，浪费了时间才恍然大悟，我为什么控制不住自己呢？这也让我想起了刚刚读完的一本书《行为上瘾》，这不正是一种行为的上瘾么？

总结来说就是“做了还想做”。你有这种感受么：工作的时候，时不时看下手机的信息；刚发完朋友圈照片，过一会点进去看一下有没有人点赞评论，没过一会又点进去；看了一条感兴趣的娱乐推送后，紧接着上滑下手机不自觉的又看下一条，一条接一条；说好只看一集电视，但是一集又一集，结果不知不觉就到了凌晨四点…… 还有不断刷视频，如某音……

如果现在你说：有！别慌，这不是你一个人的问题，而是大家都如此（除非你意志力特别强大）。其实我之前也不了解，看了相关书籍后才明白，原来很多时候无形中我们就掉进了产品给挖的陷阱之中，最可悲的是我们还不知道原因。所以这篇文章通过自己的理解做了个总结，希望大家了解内因后，能够轻松摆脱“行为上瘾”，并合理运用到工作和生活中。

在《上瘾》一书中，提到“”：产品如何造就我们的习惯的四阶段模型。通过这个模型的循环机制，产品无需花费大量的宣传费用，便可以让用户自主性的使用产品，逐渐依赖，最终成为忠实用户，共有四个步骤：触发——行动——多变的赏酬——投入

触发简单来说就是促使你做出行动的出发点，有外部触发和内部触发，我们最先关注一款产品一般是外部触发：有广告、链接、朋友分享、应用商店推荐等外在渠道。

比如支付宝“全民攒金币金活动”，它的外部触发是打开支付宝弹出来的弹窗，鲜艳的颜色，欢快的钱袋小人，还有明显的红色大按钮，更重要的是“49999元”明显的数字，这些都是可以引发我想点击的欲望，明知道是商家故意营销，也会想点击去看看究竟是什么。

内部触发：是指内心深处的情感促使我们行动，是自主性行为。外部触发是我们接触产品的第一步，而内部触发则是剩下环节的内在驱动。如这个活动的“抽49999元”的标语正好迎合了我希望天下掉馅饼的心理，内心看到会不由的独白：说不定运气好抽中现金呢，几十块甚至几块也好。

触发是第一阶段，接下来是要做出行动。如果看到了想行动，但是没有条件去做，最终这个触发也就没有生效，就不可能会让我们上瘾，那产品如何真正促使我们行动呢？我们看下福格博士的行为模型：

M即Motivation，代表行为的动机，是指是否愿意采取行动；

A代表Ability，也就是能力，包含6个要素：

时间：完成这一系列活动所需的时间；如果我只有10分钟的时间，而玩这个游戏需要30分钟以上，那我就很有可能不会做出行动
金钱：所要花费的经济投入；如一个视频课程是免费的，那我就毫不犹豫的点击去观看，如果收费，我就有可能犹豫。
体力：完成这一系列活动所需消耗的体力。如我累了一天只想休息，就算想玩一下游戏活动，也有心无力。
脑力：完成这一系列活动所需消耗的脑力。如操作成本太高，学习成本高，用户就有可能知难而退。
社会环境是否允许：家人朋友是否认同。

结合上方的6个要素，可以看出产品的使用成本越低、流程越简化则用户使用的障碍就越少，越有能力去采取行动。

T—Trigger，代表触发。当一款产品使用户有了动机，简单容易上手，有外部条件允许的能力，拿来就能使用，有了触发点，那就会采取行动。

如抖音，最成功的的上瘾产品，动机：对于观看者是打消碎片化时间，发布者通过分享找到虚荣感（除了这个还有其他，在这里不做深入分析），使用流程非常简单：就是上下滑动浏览和发布视频，有一个触发点如朋友分享链接，三者齐全，我们就会很容易去打开App，去浏览视频。

如果产品满足了前面我们说的两点，那么用户就会去尝试一下这个产品，但是，上瘾是指用户使用了一次还会继续使用进而对产品产生依赖，所以，那就要看产品是否能满足用户的需求，进而激起他们更强烈的使用欲望。而“多变的赏酬”就是刺激用户再次使用的关键。

“赏酬”在这里我理解它是分为物质赏酬和精神赏酬。物质赏酬，很好理解，如积分、金币、被点赞、得到升级装备等等；精神赏酬即是精神上的刺激满足：如渴望、期待、认同等。

斯坦福大学的教授布莱恩·克努森曾做了一个实验：布莱恩和他的研究团队想要知道，在人们赌博时，大脑中的哪个区域更加活跃。我们通常认为当赌博者获得赏酬时往往应该更加兴奋，但是观察结果却出人意料，伏隔核（大脑兴奋区域）并没有受到刺激，相反，在他们期待赏酬的过程中，这个区域发生了明显的波动。

从实验中可以看出，驱使我们采取行动的，并不是仅仅是赏酬本身，渴望赏酬时产生的那份迫切需要也发挥很大的作用。

例如时不时看朋友圈，就属于精神赏酬的驱使行为。人类是社会化物种，正如亚里士多德说过的：“那些生来离群索居的个体，要么不值得我们关注，要么不是人类。”人类最怕的就是孤独，所以朋友圈就满足了这个底层需求，无形之中促使我们去寻找内心与这个社会的联结感，生怕自己脱离社会。刷抖音、看电视等都是寻找精神赏酬。

“多变”可以理解为“不确定性”。

当事情没有按照常规逻辑发展时，我们的兴趣就会被激发，大脑就会更加兴奋，更期待再次行动，再次获得惊喜来满足好奇心。正如著名物理学家、科普作家万维钢所言：“确定的失去，让人恐惧；不确定的得到，让人兴奋。”比如现在非常火的盲盒，就是利用了“不确定得到的兴奋”让消费者疯狂消费。

使之“上瘾”的最后且关键的一环：用户投入阶段，产品通过鼓励用户进行一些小小的投入，以增加他们使用产品的可能性和完成上瘾模型的可能性。行动只是用户使用的第一步，而促使用户一点一滴的投入，才会真正增强用户与产品之间的联系。

为什么呢？在《上瘾》提到：“投入增加”的心理现象往往会让我们做出反常可笑的事情。

我们会高估自己的劳动成果

2011年丹·阿雷利等人做了一项研究：第一组学生根据说明自己动手折纸，折完后，被要求出价购买自己的作品，第二组不知道折纸创作者的身份，第三组的折纸是折纸能手的作品，同样被要求估价。结果表明，自己动手折纸的一组出价高出第二组的5倍，几乎与第三组的估价一样高。这便是“宜家效应”，人对自己付出过投入的东西会附加更多的价值。

最鲜明的例子就是宜家：通过自己动手，客户对自己组装的家具会产生非理性的情感，就算使用寿命到期也会想法设法延长其使用时长。所以很多企业会利用用户的投入心理给自己附加更高的价值。

比如：吃不着葡萄说葡萄酸，得不到的就会通过改变自己对葡萄的看法，来缓解心里的不甘。

“为了避免这种不喜他人之喜的认知失调，我们会慢慢改变自己对过去不喜欢事物的看法。”——《上瘾》

自己的行为与过去会尽量保持一致

过去的行为在无意识的情况下就会对我们现在的行为产生非常明显的影响。

曾研究表明：一组直接被要求在自家门前放一个巨大的安全标识牌，而另一组在被要求放这块牌的前两周已经被要求过在窗户上贴一个小标识。结果显示，曾经贴过小标识的一组明显更愿意去放那块巨大的安全标识牌。

可见那些曾经的点滴投入，往往就会导致今后的行为有很大的改变。

那产品如何增加用户的点滴投入呢？

那就是在用户享受过形式多样的赏酬后，再提出让用户做一些小小投入的要求。必须是在这这之后，而不是之前，符合人类的回馈心理。就像人与人之间的相处一样，你给我一点小恩惠，我就会回报更多的给你。

所以，很多产品一开始都是让你无门槛参与，等你完成了一个上瘾循环后，再开始要求你转发、评论、点赞等互动方式，甚至小金额付费，循序渐进让你参与更多的产品功能当中。

上述便是上瘾模型的四个阶段，了解了这四个阶段，也就知道自己为什么会那么上瘾抖音、朋友圈、游戏这些产品了，知道了背后的产品逻辑，在你收到一个链接或者新闻推送的时候，你就可以三思而后行了。

另外，这一套上瘾逻辑我们也可以活学活用，将它运用到生活、工作、社交上，也会起到很好的效果。

好啦，今天的知识点比较多，我们复盘回顾一下：

“上瘾模型”：触发-行动-多变的筹赏-投入

促使你做出行动的出发点，有外部触发和内部触发；

外部触发：有广告、链接、朋友分享、应用商店推荐等外在渠道；
内部触发：是指内心深处的情感促使我们行动，是自主性行为。外部触发是我们接触产品的第一步，而内部触发则是剩下环节的内在驱动。

福格博士的行为模型：B=MAT

A代表Ability，也就是能力；

能力包含6个要素：时间、金钱、脑力、体力、社会环境是否允许、是否符合常规逻辑

当一款产品使用户有了动机，简单容易上手，有外部条件允许的能力，拿来就能使用，有了触发点，那就会采取行动。

“多变的赏酬”就是刺激用户再次使用的关键。

“赏酬”我理解分为物质赏酬和精神赏酬，物质赏酬，很好理解，如积分、金币、被点赞、得到升级装备等等；精神赏酬即是精神上的刺激满足：如渴望、期待、认同等。

“多变”：“不确定性”，不确定的得到，会让人更加兴奋。

行动只是用户使用的第一步，而促使用户一点一滴的投入，才会真正增强用户与产品之间的联系。

我们会高估自己的劳动成果
自己的行为与过去会尽量保持一致

产品会在用户享受过形式多样的赏酬后，再提出让用户做一些小小投入的要求，这样用户才不会反感，会更容易去接受要求。

如果大家还想更深入的了解上瘾模型，诚心推荐大家阅读这两本书：

[美]尼尔·埃亚尔，[美]瑞安·胡佛《上瘾：让用户养成使用习惯的四大产品逻辑》

欢欢迎关注作者的微信公众号：「胖小魚设计小栈」

}

音乐代码（创作自己的音乐）

学习如何开发自动生成音乐的端到端模型
理解WaveNet架构，并使用Keras从头实现它
比较WaveNet与建立自动音乐生成模型的LSTM的性能

“如果我不是物理学家，我可能会成为音乐家。我经常在音乐上思考。我在音乐中实现我的白日梦。我从音乐的角度来看待我的生活。——爱因斯坦

我可能不是像爱因斯坦先生那样的物理学家，但我完全同意他对音乐的看法!我不记得有哪一天我没有打开我的音乐播放器。我上下班的旅途伴随着音乐，老实说，它帮助我专注于我的工作。

我一直梦想着作曲，但对乐器却不是很熟悉。直到我遇到了深度学习。使用特定的技术和框架，我可以创作自己的原创音乐，而不需要真正了解任何音乐理论!

这是我最喜欢的专业项目之一。我把我的两个爱好——音乐和深度学习——结合起来，创造了一个自动生成音乐的模型。梦想成真了!

我很高兴与你分享我的方法，包括整个代码，使你能够生成自己的音乐!我们将首先快速理解自动音乐生成的概念，然后再深入探讨我们可以使用的不同方法。最后，我们将启动Python并设计我们自己的自动音乐生成模型。

音乐的构成要素是什么?
不同的音乐生成方法使用WaveNet架构使用长短时记忆(LSTM)
实现-使用Python自动作曲

音乐是一种艺术，一种通用的语言。

我把音乐定义为不同频率的音调的集合。因此，音乐的自动生成是一个创作一小段音乐的过程，并且在在这个过程中人类的介入不多。

产生音乐的最简单形式是什么?

这一切都是从随机选择声音并将它们组合成一段音乐开始的。在1787年，莫扎特提出了一个骰子游戏，这些随机的声音选择。他手工创作了近272个音调!然后，他根据两个骰子的总和选择一个音调。

另一个有趣的想法是利用音乐语法来产生音乐。

音乐语法包括正确安排和组合音乐声音以及正确演奏音乐作品所必需的知识 -音乐语法基础

在20世纪50年代早期，Iannis Xenakis使用统计和概率的概念来创作音乐——通常被称为随机音乐。他把音乐定义为偶然发生的一系列元素(或声音)。因此，他用随机理论来阐述它。他对元素的随机选择完全依赖于数学概念。

最近，深度学习架构已经成为自动生成音乐的最新技术。在本文中，我将讨论使用WaveNet和LSTM(长短时记忆)架构实现自动作曲的两种不同方法。

音乐基本上是由音符和和弦组成的。让我从钢琴乐器的角度来解释这些术语:

注:单个键发出的声音称为音符
和弦:两个或多个键同时发出的声音称为和弦。一般来说，大多数和弦包含至少3个键音
八度:重复的模式称为八度。每个八度音阶包含7个白键和5个黑键

我将详细讨论两种基于深度学习的自动生成音乐的架构——WaveNet和LSTM。但是，为什么只有深度学习架构呢?

深度学习是受神经结构启发的机器学习领域。这些网络自动从数据集中提取特征，并且能够学习任何非线性函数。这就是为什么神经网络被称为通用函数逼近器。

因此，深度学习模型是自然语言处理(NLP)、计算机视觉、语音合成等领域的最新技术。让我们看看如何为音乐作曲建立这些模型。

WaveNet是一个基于深度学习的原始音频生成模型，由谷歌DeepMind开发。

WaveNet的主要目标是从原始数据分布中生成新的样本。因此，它被称为生成模型。

在一个语言模型中，给定一个单词序列，该模型试图预测下一个单词:

与WaveNet中的语言模型类似，给定一个样本序列，它尝试预测下一个样本。

长短时记忆模型(Long- Short-Term Memory Model，俗称LSTM)是循环神经网络(RNNs)的一种变体，它能够捕获输入序列中的长期依赖关系。LSTM在序列到序列建模任务中有着广泛的应用，如语音识别、文本摘要、视频分类等。

让我们详细讨论如何使用这两种方法来训练我们的模型。

这是一个多对一的问题，输入是一系列振幅值，输出是随后的值。

让我们看看如何准备输入和输出序列。

WaveNet将原始音频作为输入。原始音频波是指波在时间序列域中的表示。

在时间序列域中，音频波以振幅值的形式表示，振幅值记录在不同的时间间隔内:

给定振幅值的序列，WaveNet尝试预测连续的振幅值。

让我们通过一个例子来理解这一点。考虑一个采样率为16,000(即每秒16,000个次采样)的5秒的音频波。现在，我们有80000个样本，每隔5秒记录一次。让我们把音频分成大小相等的块，比如1024(这是一个超参数)。

下图展示了模型的输入和输出序列:

我们可以对其余的块使用类似的过程。

从上面我们可以推断出每个块的输出只依赖于过去的信息(即以前的时间步)，而不依赖于未来的时间步。因此，该任务称为自回归任务，该模型称为自回归模型。

在推理阶段，我们将尝试生成新的样本。让我们看看怎么做:

选择一个随机的样本值数组作为建模的起点
现在，模型输出所有样本的概率分布
选择具有最大概率的值并将其附加到样本数组中
删除第一个元素并作为下一个迭代的输入传递
对一定数量的迭代重复步骤2和4

WaveNet的构建块是因果扩展的一维卷积层。让我们首先了解相关概念的重要性。

使用卷积的一个主要原因是从输入中提取特征。

例如，在图像处理的情况下，将图像与过滤器进行卷积可以得到一个特征图。

卷积是结合两个函数的数学运算。在图像处理中，卷积是图像某些部分与核的线性组合

一维卷积的目标类似于长短时记忆模型。它用于解决与LSTM类似的任务。在一维卷积中，一个核或一个滤波器只沿着一个方向运动:

卷积的输出取决于核的大小、输入形状、填充类型和步幅。现在，我将带你通过不同类型的填充来理解使用因果扩展一维卷积层的重要性。

当我们设置padding有效值时，输入和输出序列的长度会发生变化。输出的长度小于输入的长度:

当我们将padding设为相同时，在输入序列的两边填充0，使输入和输出的长度相等:

捕获输入序列中出现的顺序信息
与GRU或LSTM相比，训练要快得多，因为它们不像循环神经网络是串联的

当padding设置为same时，时间步t的输出与之前的t-1和未来的时间步t+1进行卷积。因此，它违反了自回归原则
当填充被设置为valid时，输入和输出序列的长度会发生变化，这是计算残差连接所需的(稍后将介绍)

这为因果卷积扫清了道路。

注意:我在这里提到的优点和缺点是针对这个问题的。

这被定义为卷积，其中在t时刻的输出只与来自t时刻以及更早的前一层的元素进行卷积。

简单地说，普通卷积和因果卷积只在填充上不同。在因果卷积中，在输入序列的左侧添加0，以保持自回归原理:

因果卷积不考虑未来的时间步，而未来的时间步是构建生成模型的一个标准

因果卷积不能回溯到过去或者序列中较早发生的时间步。因此，因果卷积的接受域非常低。网络的接受域是指影响输出的输入数量:

正如你在这里看到的，输出仅受5个输入的影响。因此，网络的接受域为5，非常低。网络的接受域也可以通过添加大尺寸的核来增加，但是要记住计算复杂度会增加。

这让我们想到了因果扩展一维卷积的概念。

在核值之间存在空穴或空隙的因果一维卷积层称为扩展一维卷积。

要添加的空格数由扩展率给出。它定义了网络的接收域。大小为k且扩展速率为d的核在k的每个值之间有d-1个洞。

正如你在这里看到的，将一个3*3的核与一个7*7的输入用扩展率2来进行卷积，其接收域为5*5。

扩展1D卷积网络通过指数增加每一隐藏层的扩展率来增加接受域:

正如你在这里看到的，输出受到所有输入的影响。因此，网络的接受域是16。

一个块包含残差连接和跳跃连接，这些连接只是为了加快模型的收敛速度而添加的:

输入被输入到一个因果一维卷积
然后，输出被馈送到两个不同的sigmoid和tanh激活的扩展一维卷积层
两个不同激活值的元素相乘接着是跳跃连接
在元素上加入一个跳跃连接和因果1D的输出会产生残差
跳跃连接和因果一维输出来计算残差

另一种自动生成音乐的方法是基于长短时记忆(LSTM)模型。输入和输出序列的准备类似于WaveNet。在每个时间步，振幅值被输入到长短时记忆单元-然后计算隐藏的向量，并将其传递到下一个时间步。

在$ht$时刻的当前隐藏向量是基于$ht$时刻的当前输入$at$和之前的隐藏向量$h{t-1}$计算的。这是如何捕获序列信息在任何循环神经网络:

捕获输入序列中出现的顺序信息

由于它按顺序处理输入，因此会消耗大量的训练时间

等待结束了!让我们开发一个自动生成音乐的端到端模型。打开你的Jupyter 笔记本或者Colab(或者任何你喜欢的IDE)。

下载数据集:我从众多资源中下载并组合了一架数字钢琴的多个古典音乐文件。你可以从这里下载最终的数据集。

让我们首先为可重复的结果设置种子。这是因为深度学习模型在执行时由于随机性可能会输出不同的结果。这确保了我们每次都能得到相同的结果。

我简化了WaveNet的结构，没有添加残差连接和跳跃连接，因为这些层的作用是提高更快的收敛速度(而WaveNet将原始音频作为输入)。但在我们的情况下，输入将是一组节点和和弦，因为我们正在生成音乐:

定义每50个epoch后保存模型的回调:

太棒了,对吧?但你的学习还不止于此。这里有一些方法可以进一步提高模型的性能:

增加训练数据集的大小会产生更好的旋律，因为深度学习模型可以很好地在大型训练数据集上进行泛化
在构建具有大量层的模型时添加跳跃和残差连接

深度学习在我们的日常生活中有着广泛的应用。解决任何问题的关键步骤都是理解问题陈述，制定它并定义解决问题的体系结构。

在做这个项目的时候，我有很多乐趣(和学习)。音乐是我的爱好，把深度学习和音乐结合起来是很有趣的。

}

快乐无忧网