27. 深度学习进阶 - 为什么RNN

雨点打透心脏的1/2处 2024-02-05 12:40 114阅读 0赞

文章目录

    • 一个柯基的例子
    • 为什么RNN or CNN

在这里插入图片描述
Hi,你好。我是茶桁。

这节课开始,我们将会讲一个比较重要的一种神经网络,它对应了咱们整个生活中很多类型的一种问题结构,它就是咱们的RNN网络。

咱们首先回忆一下,上节课咱们学到了一些深度学习的一些进阶基础。

1a62c98532cd436dafb4ee78f04fde86.png

学了很多神经网络的Principles, 就是它的一些很重要的概念,比方层数维度。再然后咱们讲了Optimizer, 一些优化方式。还有weights的initialization,初始化等等。

那么大家具备了这些知识之后,那我们基本上已经能够解决常见的大概90%的机器学习问题了。

我们现实生活中绝大多数的机器学习问题,或者说识别问题都可以把它抽象成要么是分类,要么是回归问题。

一个柯基的例子

我们来一个例子,比方说一张图片里这个是什么动物,这显然是一个分类问题。

Corgi

但是我们对这个图片的多个物体是什么,还有位置标注出来,那这个在里面前面会有一段是一个分类问题,后面还有一个长的向量,又会是一个回归问题。

我们只要知道分类和回归最大的区别就是一个返回的是一个类别,另外一个返回的是一个真正的数值。

那么接下来我们要正是的讲一下两种神经网络,RNN和CNN。这两个的目的是用来加速解决我们之前遇到的分类问题,或者回归问题。

在这些LSTM和CNN之类的高级的方法出现之前,其实我们用最直接的神经网络是可以解决所有的问题。

我们还是来看上面的那个例子,还是那张图片,如果要去分类看这图片里的是什么动物,我们把它形式化的表述一下。

假设我们这张图片现在是258*258的,那每一张图片进来之后,这个图片的饿背后其实都是一个向量:

  1. # 258 * 258
  2. from PIL import Image
  3. import numpy as np
  4. example_img = Image.open('assets/Corgi.png')
  5. example_img = np.array(example_img)
  6. print(example_img.shape)
  7. ---
  8. (429, 696, 3)

我们可以看到这张图片在计算机里保存的时候是(429, 696, 3)这样的一组数字。

  1. plt.imshow(example_img)

Alt text

我们用plt展示出来,就是这样。

我们现在就可以讲整个图片变成一个向量,然后把它从立方体变的拉平:

  1. example_img = example_img.reshape(1, -1)
  2. print(example_img)
  3. ---
  4. [[120 150 88 ... 43 39 38]]

那现在,我们要给这个图片做分类:

  1. class Model(nn.Module):
  2. def __init__(self, input_dimension, categorical):
  3. super(Model, self).__init__()
  4. self.linear = nn.Linear(in_features=input_dimension, out_features=categorical)
  5. self.softmax = nn.Softmax()
  6. def forward(self, x):
  7. predict = self.softmax(self.linear(x))
  8. return predict
  9. ...

这里我们暂停一下,来说说这段代码中的super(...),为了避免有些小伙伴Python基础不太好,这里说明一下。

如果有从我Python基础课就看过来的小伙伴,应该知道我在面向对象的时候应该是讲过这个方法。这个是为了在继承父类的时候,我们在重写父类方法的时候,依然可以调用父类方法。方式就是super().父类方法名()。有需要补Python基础的可以回头将我写的Python基础课程好好再看一遍。

好,我们继续回过头来讲,我们定义好这个Model之后,将图片数据变成一个PyTorch能够处理的一个example,当作训练数据传入train_x。

  1. train_x = torch.from_numpy(example_img)
  2. print('shape:{}, \ntrain_x:{}'.format(train_x.shape, train_x))
  3. ---
  4. shape:torch.Size([1, 895752]),
  5. train_x:tensor([[120, 150, 88, ..., 43, 39, 38]], dtype=torch.uint8)

然后进入线性函数,传入in_featurestrain_x.shape[1], 把它变成一个10分类,再把test_model运行一下,将我们的train_x输入进去就可以了。

  1. test_model = Model(input_dimension=train_x.shape[1], categorical=10)
  2. output = test_model(train_x.float())

这样的话, 我们就可以产生出一个Softmax,有了这个Softmax,在这我们如果有很多个x,它就会对应我们很多个已知的y。

然后我们在这里定义一个loss:

  1. criterion = torch.nn.CrossEntropyLoss()

再之后我们在做线性的时候之前,肯定是有一些ytrue数据的,肯定是知道它的y的,写个循环它就不断的可以去训练。

接着我们可以得到这个它的权重,那么在这里这是一张图片,如果这个图片要做回归,要给这个图片打分,那么将out_features换成1就可以了。

我们在Model里不断的去改它的东西,让它的输出能够满足就可以了。

不管是用户数据还是气象数据、天文数据、图片、文字,我们都可以把它变成这样的一个x向量。变成x向量之后只要送到一个模型里面,这个模型它能够去做优化,做些调整。那么它就能够去不断的去做优化。

当然,我们这里还缺一个optimizer:

  1. optimizer = torch.optim.SGD(test_model.parameters(), lr=1e-3)

我们定义了一个SGD优化器,learning_rate设置了一下,给了一个初始的学习率。

然后呢再不断的去循环它就可以了:

  1. # 定义虚拟的y
  2. lable = np.random.randint(0,2,10)
  3. train_y = torch.from_numpy(np.array([lable])).float()
  4. for t in range(100):
  5. y_true = train_y
  6. y_predict = test_model(train_x.float())
  7. print(y_true.shape)
  8. print(y_predict.shape)
  9. print(loss)

我们现在可以将criterion假如到循环里来计算一下loss了。

  1. for t in range(100):
  2. ...
  3. loss = criterion(y_predict, y_true)

就是说,我们之前学习的这些内容,不管是图片还是用户的数据、或者文字,其实都是可以变成一个向量,再把向量送入到定义好的模型里,求出它的结果。

再经过反复的运作,反复的调试来更新它的数据。

为什么RNN or CNN

那为什么我们还要学习RNN和CNN这些东西呢?我们刚开始学的wx+b的形式,可以把任意的x变成其它的一个output,
但是它在解决一些问题的时候效果就不是太好。

比方说啊,我们要识别一个图像到底是什么的时候,wx+b它是给每一个x一个权重, w x i + b w x_i + b wxi+b, 然后最后产出一个值。

但是图像我们是希望给中间一个区域一个平分,可是现在是一个点一个点的。

例如我们输入是一个x,输出是一个y。x它包含了多个x:{x1, x2, x3, …, xn},那y的输出呢,它是和多个x有关系。如果是在一个曲线上,我们取几个点, {output1, output2, output3}, 那么这个output3就不止和 x ⃗ 3 \vec x_3 x3有关系,它和前面的output2, output1都有关系。

也就是说,当下这一时刻的数据其实不仅取不仅取决于今天发生的一些事情,还取决于昨天前天,甚至大前天发生的事情。

但是我们如果直接进行wxi+b的话,这里xi=x3,wx3+b我们期望输出一个output3,这样就忽略了前边的这些事情。

与此类似的还有我们写文章,当前这个字和前面是什么字应该是有依赖关系的。其实把它抽象一下的话,会发现在现实生活中其实有很多种依赖关系。

我们之前讲的wx+b,其实是一对一。

Alt text

虽然x的维度可能会很大,y输出的维度也可能很大,但是它一个x就只对应输出一个y。

而除了one to one 之外,我们还有一些其他的类别:

Alt text

one to many,就是x输入之后,最后会输出多个y。比方说咱们输入的是一个类别,输出的是一篇文章,分别是第一个单词,第二个单词和第三个单词。

我们会发现,这三个输出的单词前后是有相关性的。这种就属于是一对多,输出的的这些内容是独立的个体,但是它们之间有相关性。

后面的many to one,典型的一个应用,你给他输入一句话,输出这个地方,这句话到底是表示正向的还是负向的。那么这句话其实每个单词之间是有依赖关系的,而输出的是一个值。

many to many里,前边输入的这个input是一个序列,有依赖关系。输出也是一个序列,有依赖关系。那么这会是一个什么?比方我们的机器翻译,就有可能是这样一个关系,对吧?还有比方说我们会去做那个文本的阅读理解,文本的摘要。

那还有一个many to many和第一个有什么区别呢?它其实只是更加的实时,比如说同声传译。

对于这些所有的问题我们给它抽象一下,它每一步的输出就像我们之前学过递归函数一样,是和前一步的输出有关系,还和当前这一步的输入有关系, 我们其实学过最典型的一个依赖关系就是这样,就是斐波那契数列或者求阶乘:

  1. def fib(n):
  2. if n == 0 or n == 1: return 1
  3. else:
  4. return fib(n-1) + fib(n-2)
  5. def fac(n):
  6. if n == 0: return 1
  7. else: return n*fac(n-1)
  8. for i in range(10): print('{}\t{}'.format(fib(i), fac(i)))

那么这个怎么实现的?我们要实现这个有多种方法,我们可以来看一个具体的案例:

  1. class RNN(nn.Module):
  2. # implement RNN from scratch rather than ysubf nn.RNN
  3. def __init__(self, input_size, hidden_size, output_size):
  4. super(RNN, self).__init__()
  5. self.hidden_size = hidden_size
  6. self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
  7. self.i2o = nn.Linear(input_size + hidden_size, output_size)
  8. self.softmax = nn.LogSoftmax(dim=1)
  9. def forward(self, input_tensor, hidden_tensor):
  10. combined = torch.cat((input_tensor, hidden_tensor), 1)
  11. hidden = self.i2h(combined)
  12. output = self.i2o(combined)

这是一个非常经典的RNN的模型,我们来一起来分析它的构成。

在构造函数内,输入了一个input_size(x向量),还有一个hidden_size。然后在下面做了一个i2h的线性变化,这个线性变化它接受一个的两个参数, in_featuresinput_size + hidden_size, out_featureshidden_size

现在有一个 x ⃗ \vec x x和一个 h ⃗ \vec h h, 将两个向量相加输入进入,然后会输出一个 v e c h vec h vech一样大小的东西。

然后下面还有一个i2o, 它是将input_size + hidden_size输入之后,输出一个output_size一样大小的东西。

在输出这两个之后,我们将output_size大小的这个向量,输入到Softmax里面,就会变成一个概率分布。

然后它继续forward的时候,继续向前运算的时候,它的输入是input和hidden,那它在这里,如果我们要求训练:

  1. def train(line_tensor, category_tensor):
  2. hidden = rnn.init_hidden()
  3. for i in range(line_tensor.size()[0]):
  4. output, hidden = rnn(line_tensor[i], hidden)

这里它有很多的tensor,比如我们的x:[x1, x2, ..., xn], 这个tensor就是这些个x。那么它在做训练的第一步会取最前面的这个x向量,这个x向量刚开始会有一个随机的hidden向量,这个时候关键的地方就来了,就是它不断的重复:output, hidden = rnn(line_tensor[i], hidden), 我们来看,这个hidden就会一次一次的送进去做更新。

hidden一开始是随机的,之后t时刻的hidden的值是由上一时刻,也就是t-1时刻的x和hidden来影响的。

  1. h0 -> random
  2. (x0, h0) -> output1, h1
  3. (x1, h1) -> output2, h2
  4. ...

这样,输出的output2不仅是x1的影响,也是受到x0的影响的,这样前后的关系就被连接起来了。

就比如说我们输入的是一段文字,就比说ChaHeng,输入C的时候,我们会得到一个hidden, 然后计算h时候,我们又会得到一个hidden, 一直到最后一个g,那我们算这一步的时候,它既包含了g这个字母, 还包含了之前n的hidden向量。那n再往上,一直到C都相关,这样它就实现了传递的效果。

那这个做法有两个人分别提出来了两种。

Alt text

之前,我们将神经网络建模为:

y t = σ ( W x t + b ) y t + 1 = σ ( W x t + 1 + b ) \begin{align*} y_t = \sigma(Wx_t + b) \\ y_{t+1} = \sigma(Wx_{t+1} + b) \end{align*} yt=σ(Wxt+b)yt+1=σ(Wxt+1+b)

现在我们将其更新为两两种方法,一个是Elman network:

h t = σ h ( W h x t + U h h t − 1 + b h ) y t = σ y ( W y h t + b y ) \begin{align*} h_t & = \sigma_h(W_hx_t + U_hh_{t-1}+b_h) \\ y_t & = \sigma_y(W_yh_t + b_y) \end{align*} htyt=σh(Whxt+Uhht−1+bh)=σy(Wyht+by)

还有一个是Jordan networks:

h t = σ h ( W h x t + U h y t − 1 + b h ) y t = σ y ( W y h t + b y ) \begin{align*} h_t & = \sigma_h(W_hx_t + U_hy_{t-1}+b_h) \\ y_t & = \sigma_y(W_yh_t + b_y) \end{align*} htyt=σh(Whxt+Uhyt−1+bh)=σy(Wyht+by)

我们看一下区别,其实就是为了加上非线性变化。给h加了一个非线性变化,再给y加了一个非线性变化。

这两个人都是很著名的计算机科学家,他们提出来的模型有区别,一个是一直在传递这个h,一个是一直在传递y。但是都实现了yt时刻和xt有关,也和x_{t-1}有关。这两个都实现了这样的一种功能,只不过它们中间一直传递的东西不太一样。

这个就是RNN的内核,它的内核就是这个东西。

我们接着,就来看一个案例,这个案例中的数据是一个盈利数据, 还是老样子,数据集我就放在文末了。

我们这里是一个两个月每天的盈利指数,其中2点几的是盈利比较多,1点几的就是盈利比较少的。

  1. timeserise_revenue = pd.read_csv('~/mount/Sync/data/AI_Cheats/time_serise_revenue.csv')
  2. sales_data = pd.read_csv('~/mount/Sync/data/AI_Cheats/time_serise_sale.csv')
  3. timeserise_revenue.drop(axis=1, columns='Unnamed: 0', inplace=True)
  4. sales_data.drop(axis=1, columns='Unnamed: 0', inplace=True)

数据上我就不展示了,大家自己拿到后查看一下。我们现在要做的是,是想根据它前十天的一个数据,来预测一下第11天的数据。

很简单的方法咱们可以写一个全连接的网络:

  1. class FullyConnected(nn.Module):
  2. def __init__(self, x_size, hidden_size, output_size):
  3. super(FullyConnected, self).__init__()
  4. self.hidden_size = hidden_size
  5. self.linear_with_tanh = nn.Sequential(
  6. nn.Linear(10, self.hidden_size),
  7. nn.Tanh(),
  8. nn.Linear(self.hidden_size, self.hidden_size),
  9. nn.Tanh(),
  10. nn.Linear(self.hidden_size, output_size)
  11. )
  12. def forward(self, x):
  13. yhat = self.linear_with_tanh(x)
  14. return yhat

我们输入10个值对它进行线性变化,再给它进行一个非线性变化,然后重复一遍,最后再来一次线性变化,这样就是最简单的一种线性和非线性变化的网络。

然后我们处理一下数据,设置一下相关参数:

  1. sales_data.drop(axis=1, columns='Unnamed: 0', inplace=True)
  2. source_data = sales_data
  3. n_epochs = 30
  4. hidden_size = 2 # try to change this parameters
  5. n_layers = 1
  6. batch_size = 5
  7. seq_length = 10
  8. n_sample_size = 50
  9. x_size = 1
  10. fc_model = FullyConnected(x_size, hidden_size, output_size=seq_length)
  11. fc_model = fc_model.double()
  12. criterion = nn.MSELoss()
  13. optimizer = optim.SGD(fc_model.parameters(), lr=0.01)
  14. fc_losses = np.zeros(n_epochs)
  15. plt.imshow(fc_model.state_dict()['linear_with_tanh.0.weight'])

Alt text

显示了一下一开始的权重。

之后我们来看一下整个的训练过程:

  1. data_loader = torch.utils.data.DataLoader(source_data.values, batch_size=seq_length, shuffle=True)
  2. for epoch in range(n_epochs):
  3. epoch_losses = []
  4. for iter_, t in enumerate(data_loader):
  5. random_index = random.randint(0, t.shape[-1] - seq_length - 1)
  6. train_x = t[:, random_index: random_index+seq_length]
  7. train_y = t[:, random_index + 1: random_index + seq_length + 1]
  8. outputs = fc_model(train_x.double())
  9. optimizer.zero_grad()
  10. loss = criterion(outputs, train_y)
  11. loss.backward()
  12. optimizer.step()
  13. epoch_losses.append(loss.detach())
  14. fc_losses[epoch] = np.mean(epoch_losses)

传入的data_loader是每一次随机的取期望的10个数字,这个数字我们就会根据序列来取出x和y, 然后把x送到模型里边得到outputs,得到outputs之后又出现熟悉的面孔, 我们求它的loss,再通过它的loss做反向传播。

optimizer做step,就是做全程的更新。

之后我们可以将每次循环的结果打印出来看看:

  1. for epoch in range(n_epochs):
  2. ...
  3. for iter_, t in enumerate(data_loader):
  4. ...
  5. if iter_ == 0:
  6. plt.clf()
  7. plt.ion()
  8. plt.title("Epoch {}, iter {}".format(epoch, iter_))
  9. plt.plot(torch.flatten(outputs.detach()),'r-',linewidth=1,label='Output')
  10. plt.plot(torch.flatten(train_y),'c-',linewidth=1,label='Label')
  11. plt.plot(torch.flatten(train_x),'g-',linewidth=1,label='Input')
  12. plt.draw()
  13. plt.pause(0.05)

我们就不全展示了,大家可以自行去运行一下。

Alt text

Alt text

红色是预测值,绿色是输入值,蓝色是实际值。这里我只放了第一张和第30张,也就是本次循环的最后一张。

那一开始,预测出来值没有和我们实际的值相符,到了30的相较而言是比较相符了。

我们看看它的loss是否如预期的下降了:

  1. plt.plot(fc_losses)

Alt text

看完全连接的模型,再来看看RNN的模型,做一个非常简单的RNN模型,那首先还是定义模型:

  1. class SimpleRNN(nn.Module):
  2. def __init__(self, x_size, hidden_size, n_layers, batch_size, output_size):
  3. super(SimpleRNN, self).__init__()
  4. self.hidden_size = hidden_size
  5. self.n_layers = n_layers
  6. self.batch_size = batch_size
  7. self.rnn = nn.RNN(x_size, hidden_size, n_layers, batch_first=True)
  8. self.out = nn.Linear(hidden_size, output_size) # 10 in and 10 out
  9. def forward(self, inputs, hidden=None):
  10. hidden = self.__init__hidden()
  11. output, hidden = self.rnn(inputs.float(), hidden.float())
  12. output = self.out(output.float());
  13. return output, hidden
  14. def __init__hidden(self):
  15. hidden = torch.zeros(self.n_layers, self.batch_size, self.hidden_size, dtype=torch.float64)
  16. return hidden

我们输入的是x_size,然后然后定义一个hidden_size。这里注意啊,hidden_size是可以改的,越大可以表示的中间层的信息就越多,但意味着需要更多的数据去训练它。

然后在forward里,可以看到每一步会输出一个output,到最后一步的时候我们把output做一个线性变化,就可以变成期望的这个结果。

那这个RNN模型其实非常的简单,就是进了一个RNN,然后做了一个线性变化,把output做成线性变化。

然后我们来看看具体表现如何, 那首先一样的是定义参数,数据可以用上一次整理过的数据,不需要再做一次了:

  1. n_epochs = 30
  2. hidden_size = 2 # try to change this parameters
  3. n_layers = 1
  4. batch_size = 5
  5. seq_length = 10
  6. n_sample_size = 50
  7. x_size = 1
  8. output_size = 1
  9. hidden = None
  10. rnn_model = SimpleRNN(x_size, hidden_size, n_layers, seq_length, output_size)
  11. criterion = nn.MSELoss()
  12. optimizer = optim.SGD(rnn_model.parameters(), lr=0.01)
  13. rnn_losses = np.zeros(n_epochs)

然后我们就可以来跑一下了。

  1. data_loader = torch.utils.data.DataLoader(source_data.values, batch_size=seq_length, shuffle=True)
  2. for epoch in range(n_epochs):
  3. for iter_, t in enumerate(data_loader):
  4. if t.shape[0] != seq_length: continue
  5. random_index = random.randint(0, t.shape[-1] - seq_length - 1)
  6. train_x = t[:, random_index: random_index+seq_length]
  7. train_y = t[:, random_index + 1: random_index + seq_length + 1]
  8. outputs, hidden = rnn_model(train_x.double().unsqueeze(2), hidden)
  9. optimizer.zero_grad()
  10. loss = criterion(outputs.double(), train_y.double().unsqueeze(2))
  11. loss.backward()
  12. optimizer.step()
  13. epoch_losses.append(loss.detach())
  14. rnn_losses[epoch] = np.mean(epoch_losses)

Alt text

Alt text

那RNN模型其实从第三轮的时候效果就已经出现了,我们的x一样,改变了一个模型之后拟合的效果就不一样了。

我们来看看它的loss:

Alt text

RNN模型跑下来,loss是下降到了0.67左右,那我们之前的全连接模型的loss是在0.8以上,还是有一些区别的。我们可以将两个模型的loss打印到一张图上,就更能看出来两个模型的区别了。

  1. plt.plot(rnn_losses, c='red')
  2. plt.plot(fc_losses, c='green')

Alt text

就可以看到,非常明显。

举这个例子作用是想说明,wx+b加上非线性变化这种形式其实也能解决问题,但是遇到时间相关,序列相关的问题的时候,解决效果就没有RN模型这么好。

为什么没有RNN模型好呢?因为RNN模型在这个过程中每一步把前一步的hidden的影响给它保留了下来。就是说它每一步的输出的时候不是单纯的考虑这一步的输出,把之前每一步的x的值其实都保留下来了。这个区别就是为什么要有RNN,以及大家之后什么时候用RNN。

因为我这边只是做个测试,所以仅仅做了30次epoch,那之后,大家可以尝试一下将epoch改成200或者更多,来看看具体loss会下降到什么程度。

好,文章最后,就是本文所用的数据集了:

time_serise_revenue.csv

链接: https://pan.baidu.com/s/1dL9XdBgoi3nC2VOC6w\_wnw?pwd=qmw6 提取码: qmw6
–来自百度网盘超级会员v6的分享

time_serise_sale.csv

链接: https://pan.baidu.com/s/12wMJHzSZk91YPFcaG-K6Eg?pwd=1kmp 提取码: 1kmp
–来自百度网盘超级会员v6的分享

发表评论

表情:
评论列表 (有 0 条评论,114人围观)

还没有评论,来说两句吧...

相关阅读

    相关 REST 深度

    > 最近团队人数在扩大,才发现,REST 这个出来很多年头的东西,居然还有人用不好。 说起来,REST 出现已经很久了。 从早期的三层架构,到现在的多层、微服务,核心内容之

    相关 入门与深度学习

    在入门或者进阶深度学习的时候,很多人都会存在各种各样的疑问与迷惑。本课程的初衷也是希望能帮助大家答疑解惑。在开始学习深度学习之前,先明确几个观点,解决一些疑惑。这里,我针对曾经