语境:我有一个带有LSTM细胞的复发神经网络网络的输入是一批大小(batch_size,number_of_timesteps,One_hot_encoded_class)(128,300,38)批次的不同行(1-128)不一定彼此相关一个时间步的目标由下一个时间步的值给出。我的问题:当我使用(128,300,38)的输入批次训练网络和相同大小的目标批次时,网络是否总是仅考虑最后一个时间阶段t预测下一个时间步的价值t+1?还是它考虑从序列开始到时间步长的所有时间步骤t?还是LSTM单元在内部记住所有以前的状态?我对功能感到困惑,因为网络经过多个时间步骤进行了模拟训练,因此我不确定LSTM单元格