当前位置: 首页 > 知识库问答 >
问题:

Tensorflow 2:维度1的切片索引64越界。[OP:stridedslice]名称:caption_generator_5/strided_slice/

水浩歌
2023-03-14

下面是我的代码,为视频序列创建标题

    self.wordEmbed = self.add_variable(name='wordEmbed', shape=(n_words, dim_hidden), trainable=True)

def build(self, input_shape):
    self.wordEmbed.assign(tf.random.uniform(minval=-0.1,maxval=0.1,seed=10,shape=self.wordEmbed.shape,dtype=tf.float32))

def call(self, inputs, **kwargs):
    out=tf.nn.embedding_lookup(self.wordEmbed, inputs)
    return out
    self.dense_feature=keras.layers.Dense(units=dim_hidden,name='dense_feature')
    self.dense_feature.build(input_shape=(None,dim_feature))

    self.lstm1=keras.layers.LSTMCell(units=dim_hidden,name='lstm_video')
    self.lstm1.build(input_shape=(batch_size,dim_hidden))
    self.lstm2=keras.layers.LSTMCell(units=dim_hidden,name='lstm_caption')
    self.lstm2.build(input_shape=(batch_size, dim_hidden*2))

    self.dense_output=keras.layers.Dense(units=n_words,
                                         name='dense_output')
    self.dense_output.build(input_shape=(None,dim_hidden))
    if bias_init_vector is not None:
        self.dense_output.bias.assign_add(bias_init_vector)

def call(self,X,Y=None,Y_mask=None):
    if Y is not None:
        return self.train(X,Y,Y_mask)  # loss
    else:
        return self.predict(X)   # result

def train(self,X,Y,Y_mask):
    self.state1 = self.lstm1.get_initial_state(batch_size=self.batch_size, dtype=tf.float32)
    self.state2 = self.lstm2.get_initial_state(batch_size=self.batch_size, dtype=tf.float32)
    self.padding = tf.zeros([self.batch_size, self.dim_hidden])
    X = tf.reshape(X, shape=(-1, self.dim_feature))  # (batch_size*T,dim_feature)
    X = self.dense_feature(X)  # (batch_size*T,dim_hidden)
    X = tf.reshape(X, shape=(self.batch_size, -1, self.dim_hidden))
    # encoding video
    losses=0.0
    for i in range(self.n_video_lstm):
        output1, self.state1 = self.lstm1(X[:, i, :], self.state1)
        output2, self.state2 = self.lstm2(tf.concat([output1, self.padding], 1), self.state2)

    # decoding
    for i in range(self.n_caption_lstm + 1):
        with tf.device('cpu:0'):
            current_embed = self.wordEmbed(Y[:, i])  # tf.gather
        output1, self.state1 = self.lstm1(self.padding, self.state1)
        output2, self.state2 = self.lstm2(tf.concat([output1, current_embed], 1), self.state2)

        labels=Y[:,i+1]
        onehot_labels=tf.one_hot(labels,depth=self.n_words)

        logit_words=self.dense_output(output2)
        cross_entropy=tf.nn.softmax_cross_entropy_with_logits(labels=onehot_labels,logits=logit_words)
        cross_entropy=cross_entropy*Y_mask[:,i]
        current_loss=tf.reduce_mean(cross_entropy)
        losses+=current_loss
    return losses

def predict(self,X):
    batch_size=X.shape[0]
    self.state1 = self.lstm1.get_initial_state(batch_size=batch_size, dtype=tf.float32)
    self.state2 = self.lstm2.get_initial_state(batch_size=batch_size, dtype=tf.float32)
    self.padding = tf.zeros([X.shape[0], self.dim_hidden])
    X = tf.reshape(X, shape=(-1, self.dim_feature))  # (batch_size*T,dim_feature)
    X = self.dense_feature(X)  # (batch_size*T,dim_hidden)
    X = tf.reshape(X, shape=(batch_size, -1, self.dim_hidden))
    # encoding video
    for i in range(self.n_video_lstm):
        output1, self.state1 = self.lstm1(X[:, i, :], self.state1)
        output2, self.state2 = self.lstm2(tf.concat([output1, self.padding], 1), self.state2)

    # decoding
    generated_words=[]
    for i in range(self.n_caption_lstm + 1):
        if i==0:
            with tf.device('cpu:0'):
                current_embed = self.wordEmbed(tf.ones([batch_size],dtype=tf.int64))
        output1, self.state1 = self.lstm1(self.padding, self.state1)
        output2, self.state2 = self.lstm2(tf.concat([output1, current_embed], 1), self.state2)


        logit_words = self.dense_output(output2)
        max_prob_index=tf.argmax(logit_words,axis=-1)
        with tf.device('cpu:0'):
            current_embed=self.wordEmbed(max_prob_index)
        generated_words.append(max_prob_index.numpy())

    return np.array(generated_words).T'''

维度1的切片索引64越界。[OP:stridedslice]名称:caption_generator_5/strided_slice/

我的输入是一个视频特性“.npy”文件,包含(64,512)个特性

共有1个答案

朱祺
2023-03-14

本行错误:

output1, self.state1 = self.lstm1(X[:, i, :], self.state1)

这里的“i”是一个帧号(从0到79)。但是1 dim self.lstm是一个特性(从0到63)。

 类似资料:
  • 这应该是等价的,即我发送一个图像的base64表示给一个模型,我得到了一个异常 线程“main”java.lang.IllegalArgumentException中的异常:维度0的切片索引0越界。[[{{node map/strided_slice}}]]在org.tensorflow.session.run(本机方法)在org.tensorflow.session.access$100(Ses

  • 问题内容: 在我的游戏代码中,我尝试添加一张手牌。一旦我做完了,我的数组就超出了范围。一切看起来都不错,但也许我缺少了一些东西。 仅供参考,一个和两个是Player实例。来自Main类的相关代码(对格式感到抱歉。我很想将其传输到Stack Overflow): 卡类: 玩家等级: 问题答案: 问题出在你的循环上 没有其他任何值可设置,因此此循环不断循环,直到所有玩家拥有超过52张牌为止。一旦某人拥

  • 如前所述,对象中的元素遵循基于零的索引。 有三种可用的索引方法类型: 字段访问,基本切片和高级索引。 基本切片是 Python 中基本切片概念到 n 维的扩展。 通过将start,stop和step参数提供给内置的slice函数来构造一个 Python slice对象。 此slice对象被传递给数组来提取数组的一部分。 输出如下: [2 4 6] 在上面的例子中,ndarray对象由arang

  • 这是我的代码: 该程序的目的是要求用户输入一个字符串,然后统计字符串中每个字符的使用次数。 当我去编译程序时,它工作正常。当我运行程序时,我可以在弹出框中输入字符串,但是在我提交字符串并按确定后,我得到一个错误,说 我不完全确定问题是什么或如何解决。

  • 这似乎微不足道,但也许我对向量的理解并不是它应该是的。我在这段代码上得到[java.lang.ArrayIndexOutOfBoundsException:Array index out of range:1]。错误发生在第3行。既然look是基于向量的大小,那么数组怎么会越界呢? 方法“getChangeSets()”返回一个列表。该列表最初是作为向量创建的。

  • 我不明白为什么这个方法不起作用。它会编译,但会引发运行时错误。