当前位置: 首页 > 软件库 > 企业应用 > 文档管理 >

tsv-utils

大型表格数据的命令行工具
授权协议 BSL
开发语言 D语言 SHELL
所属分类 企业应用、 文档管理
软件类型 开源软件
地区 不详
投 递 者 尚阳炎
操作系统 跨平台
开源组织 eBay
适用人群 未知
 软件概览

tsv-utils (TSV Utilities) 由 eBay 开源,是一组用于操作大型表格数据文件的命令行工具,适用于机器学习、数据挖掘和类似环境中的数字及文本数据,支持过滤、抽样、统计计算等操作。tsv-utils 在使用大数据集的时候尤其有优势,它比起提供类似功能的其他工具,有着更快的速度(对比数据可查阅 2018 Comparative Benchmarks Update)。

tsv-utils 的工作方式类似于传统的 unix 命令行工具(如cut、 sort 和 grep),每个工具都是一个独立的可执行文件。这些工具包括:

  • tsv-sample - 取样输入行或随机排序,包含许多抽样方法。
  • tsv-join - 使用字段作为键连接多个文件中的行。
  • tsv-uniq - 使用字段作为键筛选出重复行。
  • tsv-pretty - 输出对齐的 TSV 数据,以便在命令行上查看。
  • csv2tsv - 将 CSV 文件转码成 TSV。
  • number-lines - 给输入行编号。
  • ……

 

  • csv:逗号分隔符文件 tsv:制表分隔符文件 二者本质上都属于类文本文件,一般用excel和文本编辑器均可打开。 如果是在程序中读取,并进行相互转化,可以用pandas这个python库。 以下给出一个代码示例: csv-tsv.py import pandas as pd from sklearn.utils import shuffle # 用于数据的随机排列,也可不用 if __na

  • 代码于 https://github.com/horcham/TSVM # coding:utf-8 import numpy as np import sklearn.svm as svm from sklearn.externals import joblib import pickle from sklearn.model_selection import train_test_split,

  • #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ create_author : 蛙鳜鸡鹳狸猿 create_time : 2019-03-19 program : *_* .tsv file handler *_* """ import codecs class TSV(object): """ .ts

  • TSV是Tab-separated values(制表符分隔值)缩写,即制表符分隔值。 CSV是Comma-separatedvalues(逗号分隔值)缩写,使用场景更常见。 TSV文件和CSV文件都是可以储存表格数据的文本格式。 TSV文件和CSV文件也有很大的区别: a) 分隔符不同:TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符; b)

  • Python操作csv和excel的教程随处可见,可惜我遇到的是tsv, 然后可搜到的资料屈指可数,在经历了一番努力之后终于找到了解决方案,顺手还研究了一波文件读取,写下来记录一下。 首先上成果,伸手党自取: import csv def write_to_tsv(output_path: str, file_columns: list, data: list): csv.register_dia

  • TSV文件与CSV文件的区别 TSV 是Tab-separated values的缩写,即制表符分隔值。 相对来说CSV,Comma-separated values(逗号分隔值)更常见一些。 TSV与CSV的区别: 1)从名称上即可知道,TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符; 2)IANA规定的标准TSV格式,字段值之中是不允许出

  • 机器学习中,我们在使用一些经典的分类器对数据进行分类时,需要对数据进行一些必要的预处理。或者我们在使用别人提供的数据使用一些经典的机器学习算法进行学习时,一般常见的数据格式会是.tsv和.csv格式,那么这两种格式究竟是什么以及他们之间有什么区别呢?下面简单的介绍一下: TSV:tab separated values;即“制表符分隔值”,如: name age 张三 20 李四

  • csv:逗号分隔符文件 tsv:制表分隔符文件 二者本质上都属于类文本文件,一般用excel和文本编辑器均可打开。 如果是在程序中读取,并进行相互转化,可以用pandas这个python库。 直接转换的代码: import pandas as pd if __name__ == '__main__': # 此处是读取中文数据,如果是英文数据,编码可能是'ISO 8859-1'

  • with open(r'file.tsv', 'w', newline='') as f: tsv_w = csv.writer(f, delimiter='\t') tsv_w.writerow(['A1', 'A2', 'A3']) tsv_w.writerows(np.array(data_frame).tolist()) # 多行写入 newline用于避免多

  • 如何用R读取tsv类型文件 近日,在备战美赛期间,小编需要读取tsv文件,想着用R分析数据更为便捷,便去各种文章中学习搜集了如何用R来读取文件,其实这个过程非常简单,小编在这里总结了一下。 总体过程为: 安装包 加载包 文件导入 首先为了能够用读取tsv文件的函数,我们需要加载一个包。因为小编用的是Rstudio,所以需要打开原始的R,并输入install. packages(“readr”),并

  • pd.read_csv("./tmp/chipotle.tsv", encoding="gbk", sep="\t") 与读取csv的区别就在于加一个属性sep,并设置为\t即可

 相关资料
  • 工欲善其事,必先利其器。学好SQLite的命令行工具,对于我们学习SQLite本身而言是非常非常有帮助的。最基本的一条就是,它让我们学习SQLite的过程更加轻松愉快。言归正传吧,在SQLite的官方下载网站,提供了支持多个平台的命令行工具,使用该工具我们可以完成大多数常用的SQLite操作,就像sqlplus之于Oracle。以下列表给出了该工具的内置命令: 命令名 命令说明 .help 列出所

  • 命令行工具 meteor help 获取 meteor 命令行使用帮助。运行 meteor help 会列出meteor所有命令。运行meteor help <command>会打印出关于meteor <command>的详细帮助。 meteor create <name> 创建一个名为<name>的子目录,并在里面新建一个Meteor应用。 met

  • web3j的完全jar文件分发包对每一次发布都提供命令行工具。命令行允许你从终端(terminal)使用web3j的一些功能: 这些工具提供: 钱包创建 钱包密码管理 从一个钱包转移到另一个钱包以太币 solidity智能合约封装包的产生 命令行工具可以从github项目存储库的releases页面下载zipfile/tarball包,或者通过源代码自己编译获得;OS X用户也可以通过Homebr

  • 命令行工具 web3j的jar包为每一个版本都提供命令行工具。命令行工具允许你直接通过一些命令使用web3j的一些功能: 钱包创建 钱包密码管理 资金从钱包转移到另一个 solidity编写的智能合同功能打包 请参阅文档以获得命令行相关的进一步的信息。

  • 命令行是程序员的好伙伴 作为一名优秀的程序员,熟练的命令行操作也是必不可少的。在『Laravel 实战教程』系列课程中,我们的很多操作都会使用到命令行,如: Git 操作; 虚拟机管理; 部署到线上等。 工欲善其事、必先利其器,命令行工具的选择也尤其重要。这里为了课程讲解的一致性,也为了避免读者在学习中犯不必要的错误,我们为各个平台挑选了专属的命令行工具,请大家配合使用。 Mac 用户 Mac O

  • 查找所有数据库大小的命令是什么? 我可以使用以下命令找到特定数据库的大小: