机器学习中,我们在使用一些经典的分类器对数据进行分类时,需要对数据进行一些必要的预处理。或者我们在使用别人提供的数据使用一些经典的机器学习算法进行学习时,一般常见的数据格式会是.tsv和.csv格式,那么这两种格式究竟是什么以及他们之间有什么区别呢?下面简单的介绍一下:
TSV:tab separated values;即“制表符分隔值”,如:
name age
张三 20
李四 30
CSV: comma separated values;即“逗号分隔值”,如:
name,age
张三,20
李四,30
注:
两者均是以纯文本形式存储的表格数据,可由表格软件导出或读入,编码方式是可以自行定义的。本质而言没有太大区别。
matlab和python中都有很成熟的可供调用的接口处理该两种类型的文件。这里不再赘述。
参考:
1 https://baike.baidu.com/item/CSV/10739?fr=aladdin
2 http://blog.csdn.net/WalkingAlien/article/details/53100088
3 http://blog.csdn.net/u010004460/article/details/52080709
4 http://blog.csdn.net/m0_37639589/article/details/77385833