当前位置: 首页 > 编程笔记 >

Tensorflow如何用于使用Python对与stackoverflow问题数据集相关联的文本数据进行矢量化处理?

仲学真
2023-03-14
本文向大家介绍Tensorflow如何用于使用Python对与stackoverflow问题数据集相关联的文本数据进行矢量化处理?,包括了Tensorflow如何用于使用Python对与stackoverflow问题数据集相关联的文本数据进行矢量化处理?的使用技巧和注意事项,需要的朋友参考一下

Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。它具有优化技术,可帮助快速执行复杂的数学运算。

This is because it uses NumPy and multi-dimensional arrays. These multi-dimensional arrays are also known as ‘tensors’. The framework supports working with deep neural networks. It is highly scalable and comes with many popular datasets. It uses GPU computation and automates the management of resources. It comes with multitude of machine learning libraries and is well-supported and documented. The framework has the ability to run deep neural network models, train them, and create applications that predict relevant characteristics of the respective datasets.

The ‘tensorflow’ package can be installed on Windows using the below line of code −

pip install tensorflow

Tensor is a data structure used in TensorFlow. It helps connect edges in a flow diagram. This flow diagram is known as the ‘Data flow graph’. Tensors are nothing but a multidimensional array or a list.

我们正在使用Google合作实验室来运行以下代码。Google Colab或Colaboratory可帮助在浏览器上运行Python代码,并且需要零配置并免费访问GPU(图形处理单元)。合作已建立在Jupyter Notebook的基础上。

示例

以下是将文本数据向量化的代码片段-

print("The vectorize function is defined")
def int_vectorize_text(text, label):
   text = tf.expand_dims(text, -1)
   return int_vectorize_layer(text), label
print(" A batch of the dataset is retrieved")
text_batch, label_batch = next(iter(raw_train_ds))
first_question, first_label = text_batch[0], label_batch[0]
print("问题是: ", first_question)
print("标签是: ", first_label)

print("'binary' vectorized 问题是:",
   binary_vectorize_text(first_question, first_label)[0])
print("'int' vectorized 问题是:",

   int_vectorize_text(first_question, first_label)[0])

代码信用-https://www.tensorflow.org/tutorials/load_data/text

输出结果

The vectorize function is defined
A batch of the dataset is retrieved
问题是: tf.Tensor(b'"function expected error in blank for dynamically created check box
when it is clicked i want to grab the attributevalue.itis working in ie 8,9,10 but not working in ie
11,chrome shows function expected error..<input type=checkbox checked=\'checked\'
id=\'symptomfailurecodeid\' tabindex=\'54\' style=\'cursor:pointer;\' onclick=chkclickevt(this);
failurecodeid=""1"" >...function chkclickevt(obj) { .
alert(obj.attributes(""failurecodeid""));.}"\n', shape=(), dtype=string)
标签是: tf.Tensor(2, shape=(), dtype=int32)
'binary' vectorized 问题是: tf.Tensor([[1. 1. 1. ... 0. 0. 0.]], shape=(1, 10000), dtype=float32)
'int' vectorized 问题是: tf.Tensor(
[[ 37 464 65 7  16 12 879 262 181 448 44 10 6  700
   3  46  4 2085 2 473 1   6  156  7  478 1 25 20
  156 7  478 1  499 37 464 1 1846 1666 1  1  1  1
   1  1   1  1    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0 0 0
   0  0   0  0    0 0    0 0    0    0 0  0]], shape=(1, 250), dtype=int64)

说明

  • 二进制模式返回一个数组,该数组指示令牌的存在。

  • 在int模式下,每个标记都被一个整数替换。

  • 这样,订单将被保留。

  • 定义了矢量化功能。

  • 对数据样本进行矢量化处理,并在控制台上显示矢量化的“二进制”和“ int”模式

  • 可以在该特定层上使用“ get_vocabulary”方法来查找该字符串

 类似资料:
  • 本文向大家介绍文本向量化如何使用Tensorflow和Python应用于stackoverflow问题数据集?,包括了文本向量化如何使用Tensorflow和Python应用于stackoverflow问题数据集?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于

  • 本文向大家介绍Tensorflow如何用于使用Python配置stackoverflow问题数据集?,包括了Tensorflow如何用于使用Python配置stackoverflow问题数据集?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。它具

  • 本文向大家介绍如何使用 Tensorflow 对使用 Python 的 stackoverflow 问题数据集进行模型训练?,包括了如何使用 Tensorflow 对使用 Python 的 stackoverflow 问题数据集进行模型训练?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,

  • 本文向大家介绍如何使用Tensorflow使用Python查看矢量化数据的样本?,包括了如何使用Tensorflow使用Python查看矢量化数据的样本?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,可与Python结合使用,以实现算法,深度学习应用程序等等。它用于研究和生产目的。 可以使用下面的代码行在Windows上

  • 本文向大家介绍Tensorflow如何使用Python预测每个标签上的stackoverflow问题数据集的分数?,包括了Tensorflow如何使用Python预测每个标签上的stackoverflow问题数据集的分数?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等

  • 本文向大家介绍Tensorflow如何使用Python检查模型在stackoverflow问题数据集上的表现如何?,包括了Tensorflow如何使用Python检查模型在stackoverflow问题数据集上的表现如何?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等