当前位置: 首页 > 编程笔记 >

如何准备Illiad数据集以使用Python进行训练?

朱阳曜
2023-03-14
本文向大家介绍如何准备Illiad数据集以使用Python进行训练?,包括了如何准备Illiad数据集以使用Python进行训练?的使用技巧和注意事项,需要的朋友参考一下

Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。

可以使用下面的代码行在Windows上安装'tensorflow'软件包-

pip install tensorflow

Tensor是TensorFlow中使用的数据结构。它有助于连接流程图中的边缘。该流程图称为“数据流程图”。张量不过是多维数组或列表。

我们将使用Illiad的数据集,其中包含来自William Cowper,Edward(德比伯爵)和Samuel Butler的三本翻译作品的文本数据。当给出单行文本时,训练模型以识别翻译器。使用的文本文件已经过预处理。这包括删除文档的页眉和页脚,行号和章节标题。

我们正在使用Google合作实验室来运行以下代码。Google Colab或Colaboratory可以帮助通过浏览器运行Python代码,并且需要零配置和对GPU(图形处理单元)的免费访问。协作已建立在Jupyter Notebook的基础上。

示例

以下是代码片段-

print("Prepare the dataset for training")
tokenizer = tf_text.UnicodeScriptTokenizer()
print("Defining a function named 'tokenize' to tokenize the text data")
def tokenize(text, unused_label):
   lower_case = tf_text.case_fold_utf8(text)
   return tokenizer.tokenize(lower_case)
tokenized_ds = all_labeled_data.map(tokenize)
print("Iterate over the dataset and print a few samples")
for text_batch in tokenized_ds.take(6):
   print("Tokens: ", text_batch.numpy())

代码信用-https://www.tensorflow.org/tutorials/load_data/text

输出结果

Prepare the dataset for training
Defining a function named 'tokenize' to tokenize the text data
WARNING:tensorflow:From /usr/local/lib/python3.6/distpackages/tensorflow/python/util/dispatch.py:201: batch_gather (from
tensorflow.python.ops.array_ops) is deprecated and will be removed after 2017-10-25.
Instructions for updating:
`tf.batch_gather` is deprecated, please use `tf.gather` with `batch_dims=-1` instead.
Iterate over the dataset and print a few samples
Tokens: [b'but' b'i' b'have' b'now' b'both' b'tasted' b'food' b',' b'and' b'given']
Tokens: [b'all' b'these' b'shall' b'now' b'be' b'thine' b':' b'but' b'if' b'the'
b'gods']
Tokens: [b'their' b'spiry' b'summits' b'waved' b'.' b'there' b',' b'unperceived']
Tokens: [b'"' b'i' b'pray' b'you' b',' b'would' b'you' b'show' b'your' b'love'
b',' b'dear' b'friends' b',']
Tokens: [b'entering' b'beneath' b'the' b'clavicle' b'the' b'point']
Tokens: [b'but' b'grief' b',' b'his' b'father' b'lost' b',' b'awaits' b'him'
b'now' b',']

解释

  • 定义了“标记化”功能,该功能通过消除空格将数据集中的句子拆分为单词。

  • 完整地在数据集上调用此函数。

  • 标记化后的数据集样本显示在控制台上。

 类似资料:
  • 本文向大家介绍Tensorflow如何用于准备IMDB数据集以在Python中进行训练?,包括了Tensorflow如何用于准备IMDB数据集以在Python中进行训练?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。它具有优化技术,可帮助快速执

  • 本文向大家介绍Tensorflow如何用于使用Python加载Illiad数据集?,包括了Tensorflow如何用于使用Python加载Illiad数据集?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。 Tensor是TensorFlow中使

  • 本文向大家介绍如何使用Tensorflow使用Python下载和浏览Illiad数据集?,包括了如何使用Tensorflow使用Python下载和浏览Illiad数据集?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。 可以使用下面的代码行在Wi

  • 本文向大家介绍如何使用 Tensorflow 对使用 Python 的 stackoverflow 问题数据集进行模型训练?,包括了如何使用 Tensorflow 对使用 Python 的 stackoverflow 问题数据集进行模型训练?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,

  • PS:我使用的是Apache Spark 1.6.3

  • 通过Keras神经网络运行一组标记向量。 查看Keras数据集示例mnist: 它似乎是一个三维Numpy数组: 第一个维度用于样本 每个示例功能的第二个和第三个 构建标记向量: 为什么对于如此简单的数据集,我会得到如此糟糕的结果?我的数据集是否格式错误? 谢谢