尝试将数据集吐槽到train
和test
,然后需要将其保存为.txt
格式。
这是到目前为止的代码,
import pandas as pd
from sklearn.model_selection import train_test_split
category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8')
train, test = train_test_split(category, test_size=0.2)
test.to_csv('checkme.txt')
您需要将数据帧编写为Unicode:
test.to_csv('checkme.txt', sep='\t', encoding='utf-8')
问题内容: 假设我正在制作健身应用程序,您可以在其中进行锻炼。配置锻炼后,您需要保存它。如何添加此功能,以便当他退出应用程序并再次打开它时,他可以查看他的锻炼? 我专门在Android上工作。 这可用于保存本地游戏保存和数据。 问题答案: 我相信Kivy具有处理此问题的模块。尽管它仍(在撰写本文时)仍处于实验阶段。在这里查看:http : //kivy.org/docs/api- kivy.sto
我正在本地机器中将spark数据集保存为拼花文件。我想知道是否有任何方法可以使用某种加密算法对数据进行加密。我用来将数据保存为拼花文件的代码如下所示。 <代码>数据集。写入()。模式(“覆盖”)。拼花地板 我看到了一个类似的问题,但我的查询不同,因为我正在写入本地磁盘。
问题内容: 我有一个文本字符串的一列包含逗号分隔的值。我想拆分每个CSV字段并为每个条目创建一个新行(假定CSV干净,只需要在’,’上拆分)。例如,a应变为b: 到目前为止,我已经尝试了各种简单的函数,但是该.apply方法似乎只在轴上使用一行作为返回值,而我无法开始.transform工作。我们欢迎所有的建议! 示例数据: 我知道这是行不通的,因为我们通过numpy丢失了DataFrame元数据
我有多个文本框,当用户在不同的文本框中键入时,我希望有一个存储所有格式化数据的数组。 格式化的数据以 m:ss 为单位(m - 分钟,s - 秒) 现在,所有不同的文本框都显示相同的值,因为只有一个this.formatTime. 我们如何改变这一点,以便v-model遍历数组,并将其添加到格式化值数组中? 文本框应显示格式化的值,并将其存储在所有格式值[]中。 我真的被困在这个,谢谢你的时间!
使用Kafka Connect HDFS Sink,我能够将avro数据写入Kafka主题并将数据保存在hive/hdfs中。 我正在尝试使用格式类以拼花文件格式保存数据 快速启动hdfs。属性如下 当我将数据发布到Kafka时,表在hive中创建,test\u hdfs\u parquet目录在hdfs中创建,但由于以下异常,Sink无法以parquet格式保存数据
我现在正在学习表单PDF的基础知识。输入字段值后,我可以将带有数据的pdf保存为pdf文件。使用Acrobat pro,我可以导出FDF和XFDF文件中的数据。我们需要开发一个网站,允许用户在浏览器中填写一些表格pdf,最好下载为充满数据的pdf表格。PDFTron是一个很好的解决方案,但看起来我可以从中下载FDF文件或XFDF文件或扁平pdf。用户应该能够修改下载的表单。PDFTron能做到这一