在waymo上测纯视觉baseline(多相机模式),分很多步:
mmdet3d官网的waymo dataset教程过于简略,处理的结果只能给pointpillar用,而且是旧版的数据集。对初学者的我非常不友好。下面基于mmdet的教程(以下简称教程),简要归纳一下具体流程,并解释如何修改mmdet3d的代码,使得detr3d在处理waymo的道路上,迈出第一步。
事实上,直接手写一遍处理比研究并修改这套代码更快,但是作为初学者,为了熟悉框架,我还是看了一遍
update: 环境配置直接使用环境配置中的install_mmdet3d_rc2.sh即可。
waymo dataset v1.3.1或者v1.3.2在github上有配套的waymo-open-dataset工程,里面有tutorial和data frame的protobuf定义,基于tensorflow实现了一些提取数据集的功能。
使用mmdetection(3d)框架跑waymo dataset的时候,需要用到上述工程提取waymo dataset数据,并转换成kitti格式,这样,mmdet3d里的pointpillar就能直接跑dataset了。(detr3d还要做更多)
环境配置挺坑爹的,waymo的pip包有bug。推荐安装版本1.4.7。
(conda virtual env) user@unbuntu: pip install waymo-open-dataset-tf-2-6-0==1.4.7
tf版本根据自己环境的cudatoolkit选,我是cuda11.4。
这个版本有个问题是waymo_open_dataset/camera/ops底下缺少了文件py_camera_model_ops.py,直接在github上找到这个文件复制进安装的目录里即可,一般在anaconda3/env/[your env name]/lib/python3.7/site-package里面。
mmdet按照官方配置来就行了。如果是新环境,推荐先装waymo再装mmdet系列库。
一些坑:
1、装1.4.8会遇到某个依赖库build失败的问题,然后不仅没安装成功,环境还起包冲突了。
2、pip使用–user选项会让包装在~/.local下
在waymo官方网站里可以下载数据,按教程整理之后,整个waymo dataset格式如下:
mmdetection3d
├── mmdet3d
├── tools
├── configs
├── data
│ ├── waymo
│ │ ├── waymo_format
│ │ │ ├── training
│ │ │ ├── validation
│ │ │ ├── testing
│ │ │ ├── gt.bin
│ │ ├── kitti_format
│ │ │ ├── ImageSets
每个文件夹如training,底下都有若干个.tfrecord文件,是protobuf格式储存的dataframe。一般来说,一个文件里会有100~200个frame,每个frame包含5个camera image,若干gt_box的label以及lidar的信息如range_image等。具体可见工程里的dataset.proto。gt.bin是gt_box的点云信息,mmdet会重新生成,可以不用管。
ImageSets里放的是train/test/val的dataframe index,教程说,要从他那里下载,但也可以自己处理,之后会说。
按教程使用tools/create_data.py可以从.tfrecord里提取信息,并以kitti格式储存到kitti_format/下,文件结构如下:
│ │ ├── kitti_format
│ │ │ ├── ImageSets
│ │ │ ├── training
│ │ │ │ ├── calib
│ │ │ │ ├── image_0
│ │ │ │ ├── image_1
│ │ │ │ ├── image_2
│ │ │ │ ├── image_3
│ │ │ │ ├── image_4
│ │ │ │ ├── label_0
│ │ │ │ ├── label_1
│ │ │ │ ├── label_2
│ │ │ │ ├── label_3
│ │ │ │ ├── label_4
│ │ │ │ ├── label_all
│ │ │ │ ├── pose
│ │ │ │ ├── velodyne
│ │ │ ├── testing
│ │ │ │ ├── (the same as training)
│ │ │ ├── waymo_gt_database
│ │ │ ├── waymo_infos_trainval.pkl
│ │ │ ├── waymo_infos_train.pkl
│ │ │ ├── waymo_infos_val.pkl
│ │ │ ├── waymo_infos_test.pkl
│ │ │ ├── waymo_dbinfos_train.pkl
整体上看,create_data做3件事:
一些细节:
tfrecord大概1T多,转换完了之后3T多。
如果image_i的某个frame ABBBCCC里没有gt box,那么label_i里就没有对应的.txt文件
velodyne储存点云信息。
label_0/ABBBCCC.txt的每一行储存了gt box的参数,mmdet原本的代码,格式为:
#type + 是否截断 是否遮挡 alpha? 2Dbbox[l,b,r,t] 3Dbbox[h,w,l,x,y,z,rot]
line = my_type + ' {} {} {} {} {} {} {} {} {} {} {} {} {} {}\n'.format(...)
ImageSet 里的.txt事实上就是所有frame按照ABBBCCC方式命名下标后,下标的集合。所以自己可以直接用os.listdir处理一下得到。
database用于做lidar baseline的数据增强,给场景增添一些本来没有的物体,纯视觉的baseline不用,所以运行时可以把那块代码注释掉。
def waymo_data_prep:
# from tfrecord extracting
splits = ['training', 'validation', 'testing']
converter = waymo.Waymo2KITTI(...)
converter.convert()
#注意上一步结束后,需要手动生成或者下载ImageSets文件
# Generate waymo infos
kitti.create_waymo_info_file(
out_dir, info_prefix, max_sweeps=max_sweeps, workers=workers)
# gt database
GTDatabaseCreater(
'WaymoDataset',
out_dir,
info_prefix,
f'{out_dir}/{info_prefix}_infos_train.pkl',
relative_path=False,
with_mask=False,
num_worker=workers).create()
含有Waymo2KITTI converter,下面是没整理的函数笔记,重点是type名称的转换。注意到代码里的lidar_list似乎表示的是camera_list,感觉他写错了。这里面也有很多label信息没提取出来,如果之后要用的话还得修改这部分。
class waymo2kitti:
def init:
lidar有五个,仍然是没有back。但是我怎么感觉这是cam的name??
self.lidar_list = [
'_FRONT', '_FRONT_RIGHT', '_FRONT_LEFT', '_SIDE_RIGHT',
'_SIDE_LEFT'
]
label有5个:[ 'UNKNOWN', 'VEHICLE', 'PEDESTRIAN', 'SIGN', 'CYCLIST']
转成kitti对应的是['DontCare','Car','Pedestrian','Sign', 'Cyclist']
这个大小写和label名称应该挺重要的。config里要写好。
self.tfrecord_pathnames = sorted(
glob(join(self.load_dir, '*.tfrecord')))
veledyne文件夹是放点云的...不是速度。是lidar的brand
self.image_save_dir = f'{self.save_dir}/image_'
self.prefix = 0/1/2 即train val test
def create_folder():
test 的少一个label dir
def convert():
这个len(self)是啥啊?它实现了__len__,返回的就是tfrecord个数
mmcv.track_parallel_progress(self.convert_one, range(len(self)),
self.workers)
多线程的编程不是很懂,可以问一下人?
def convert_one(file_idx):
转换第idx个tfrecord里的信息。
#用tf封装的类,你可以用这个来看tfrecord的东西
dataset = tf.data.TFRecordDataset(pathname, compression_type='')
for frame_idx, data in enumerate(dataset):
self.save_image(frame, file_idx, frame_idx)
save_calib -> cart_to_homo
save_lidar -> convert_range_image_to_point_cloud
save_pose
save_label if training
def save_image(self,frame, file_idx, frame_idx):
for img in frame.images:
img_path = f'{self.image_save_dir}{str(img.name - 1)}/' + \
f'{self.prefix}{str(file_idx).zfill(3)}' + \
f'{str(frame_idx).zfill(3)}.png'
img = mmcv.imfrombytes(img.image)
mmcv.imwrite(img, img_path)
这里可以看出转换为kitti数据集后的命名规则。
例如:1049185.png
就是 1-049-185.png,1代表prefix(0 for train, 1 for val, 2 for test)
049就是file_idx,第几个tfrecord。
185是frame_idx,在convert_one里,所以一个tfrecord里不超过3位数的图片?
前面的path就是image_0啥的,img.name只有12345.
def save_lidar(self, frame, file_idx, frame_idx):
def save_label(self, frame, file_idx, frame_idx):
要做一个waymo->kitti的坐标变换,属于是lidar坐标到camera了
box中心要变成底面中心。
rotation也要变。
一定要注意label的int-string对应如下:
# enum Type {
# TYPE_UNKNOWN = 0;
# TYPE_VEHICLE = 1;
# TYPE_PEDESTRIAN = 2;
# TYPE_SIGN = 3;
# TYPE_CYCLIST = 4;
# }
这里会弄出label_01234和label_all,看看这俩有啥区别
label_all:仍然按照之前的命名规则。
首先提取2D box。枚举projected_lidar_labels,即投影到某个cam上的image上的
box的东西提取出来。但这里只提取了cam id,object id和2D box的左上右下角。
不知道camlabel是否还有多的域在里面?比如difficulty啥的。
感觉label里很多东西没用到,而且还很贴心的帮我把sign给去掉了...
很想print一个frame出来看一下,全部的数据,不过有几百M捏。
#type + 截断 遮挡 alpha? 2Dbbox[l,b,r,t] 3Dbbox[h,w,l,x,y,z,rot]
line = my_type + ' {} {} {} {} {} {} {} {} {} {} {} {} {} {}\n'.format(
def save_pose():
pose = np.array(frame.pose.transform).reshape(4, 4)
#The frame vehicle pose defines the coordinate system which
#the 3D laser labels are defined in.
# 感觉是lidar坐标到全局坐标的变换?问一下炫耀?
def save_calib():
T_cam_to_vehicle = np.array(camera.extrinsic.transform)#cam to ego
# waymo front camera to kitti reference camera
T_front_cam_to_ref = np.array([[0.0, -1.0, 0.0], [0.0, 0.0, -1.0],
[1.0, 0.0, 0.0]])
#感觉Tr_velo_to_cam就是kitti坐标系下的ego to cam transform,reverse过才能让detr3d投影
Tr_velo_to_cam = self.cart_to_homo(T_front_cam_to_ref) @ T_vehicle_to_cam
camera_calib = camera.intrinsic #内参有一个顺序的变换
R0_rect不知道是啥玩意
def save_lidar():pass
点云信息放在velodyne/下,全是.bin文件
# 先不看了,以后看别的lidar数据定义吧
自己写的,放在create_data.py里用
def create_ImageSets_img_ids(root_dir):
names_dict=dict()
save_dir = osp.join(root_dir, 'ImageSets/')
if not osp.exists(save_dir): os.mkdir(save_dir)
load_01 =osp.join(root_dir, 'training/calib')
load_2 = osp.join(root_dir, 'testing/calib')
RawNames = os.listdir(load_01) + os.listdir(load_2)
split = [[],[],[]]
for name in RawNames:
if name.endswith('.txt'):
idx = name.replace('.txt', '\n')
split[int(idx[0])].append(idx)
for i in range(3):
split[i].sort()
open(save_dir+'train.txt','w').writelines(split[0])
open(save_dir+'val.txt','w').writelines(split[1])
open(save_dir+'trainval.txt','w').writelines(split[0]+split[1])
open(save_dir+'test.txt','w').writelines(split[2])
生成.pkl文件,get_waymo_image_info从文件系统中读取每帧对应信息,_calculate_num_points_in_gt计算每个gt_box有多少lidar_point,方便后续使用。
def create_waymo_info_file:
imageset_folder = Path(data_path) / 'ImageSets'
train_img_ids = _read_imageset_file(str(imageset_folder / 'train.txt'))
#所以这个split文件也可以直接用LS获得,就是比较慢
#你就直接自己处理吧
waymo_infos_train = get_waymo_image_info( #从离散的文件中整合信息到pkl
data_path, #包括img、lidar的path,labels
training=True,
velodyne=True,
calib=True,
pose=True,
image_ids=train_img_ids,
relative_path=relative_path,
max_sweeps=max_sweeps)
_calculate_num_points_in_gt(
data_path,
waymo_infos_train,
relative_path,
num_features=6,
remove_outside=False)
# _calculate_num_points_in_gt 为 info[0~num_frame][annos]多加一个dim
#annos['num_points_in_gt'],shape[M],表示每个box里有多少lidar point
filename = save_path / f'{pkl_prefix}_infos_train.pkl'
print(f'Waymo info train file is saved to {filename}')
mmcv.dump(waymo_infos_train, filename)#不知道是text还是2进制文件呢?问问看?
#上面是train,接下来val和test差不多的。val里面还额外生成一个trainval,就是把train和val的信息加起来
里面有函数get_waymo_image_info,主要关注文件中格式到pkl格式的转换,比较繁琐,这是二次转换,.pkl相比kitti_format/training又会丢失一些信息,比如他只存了front camera的path,其他cam的信息,如果要使用,要修改后续的dataloader,具体怎么改后面说。下面贴的代码供我自己备忘。
def get_waymo_image_info(path,
training=True,
label_info=True,
velodyne=False,
calib=False,
pose=False,
image_ids=7481,
extend_matrix=True,
num_worker=8,
relative_path=True,
with_imageshape=True,
max_sweeps=5):
注意到这里也只开了8个worker。不知道是否使用GPU?
pkl可以用mmcv.load看
一个pkl frame里面有points、image[path,idx,shape],
point_cloud[path,num_feat],calib,annos[num_gt个gt label]
with futures.ThreadPoolExecutor(num_worker) as executor:
image_infos = executor.map(map_func, image_ids)
#用这种方法来开多线程,应该就不用GPU?
map_func就是处理单个image_id信息的东西,image_infos应该是一个list的dict。
单个info的获取方法如下:
pc_info=dict(
velodyne: path/to/0-000-000.bin
num_feat:6)#x,y,z,refl, ?, timestamp
image_info = dict(
image_path: image_0的path,只有单个cam
image_shape: 从image_path里读img进来算shape,当然只是img_0的shape
)
label_info = dict(
label_path: label_all的path
)
calib_info=dict(
Pi: cam_intrinsic_i (i=0 to 4) [4x4]
R0_rect:R0_rect [4x4]
Tr_velo_to_cam : Tr_velo_to_cam_0[3x4]
注意这里只读入了cam0的外参,不需要其他相机吗?
)
确实没有其他相机的外参,但是transfusion又额外读了:
https://github.com/XuyangBai/TransFusion/blob/master/mmdet3d/datasets/waymo_dataset.py#L144
pose = np.loadtxt(pose_path)
annotations = get_label_anno()
annotations['cam_id'] = self.pop('score')#直接把score换成cam_id?感觉是kitti的setting
add_difficulty_to_annos(annotations) #应该是用kitti的标准算难度,这完全就抛弃了waymo嘛...
max_sweep = 5
sweeps 用来把前5个velodyne的数据都存下来。
prev_info=dict(velodyne_path, timestamp, pose)
sweeps = list of prev_info# 不知道这个sweep有什么用呢?就是有时候你可以利用历史信息?
points = 从.bin里把xxx.bin的点云读出来,直接np.fromfile,说明里面是N*num_feat个float
info=dict(
timestamp: 取points里首个点的timestamp
image: image_infos
point_cloud: pc_info
calib: calib_info
pose: pose
annos: annotations
sweeps: sweeps
)
return info
def get_label_anno():
content = [line.strip().split(' ') for line in lines]#[[],[],[]]
num_objects = len([x[0] for x in content if x[0] != 'DontCare'])
num_gt = len(annotations['name'])
index = list(range(num_objects)) + [-1] * (num_gt - num_objects)
annotations =list of dict(
name, truncated, occluded, alpha, bbox, dim, loc, rot,score
name = [car,car,car,ped,ped,cyc,car...]
即从label_all/xxx.txt里读的所有东西,每个都是list。
另外有:
index:index
没看懂为什么要把最后的index弄成-1,而前面就是range()
但其实在waymo converter里面dont care已经被筛掉了。所以怎么搞都一样
group_ids: range(num_gt)
)
不太重要
class GTDatabaseCreater():
好像不会用到waymo官方的gt.bin?只是使用刚刚转换出来的东西
def create_groundtruth_database():
直接用了dataloader和pipeline类,一直没搞懂,明天感觉还得好好看看这个。
不太清楚怎么从pkl的key转换成dataset的key
loadanno的地方有个bbox_3d和label_3d,可是anno_info里又不叫bbox,不知道怎么转换的。
他只read points和annos,生成dbinfos_train.pkl和gt_database/
他似乎只用了infos_train.pkl的信息。
注意到是每个object放一个bin,命名方式为image_idx_TYPE_i.bin
其中i为image_idx这张图片里的第i个物体。type就是类别。
内容为gt_box内的points。
box的其他信息比如name、bin的path,image_idx,bbox3d,'num_points_in_gt'都会放到db_info
db_info弄成list,存进dbinfos_train.pkl里
用官方的create_data,.pkl会漏掉一些信息,比如只存了image_0的label,没有image_1的,这些需要通过修改dataloader来实现,我直接复制了transfusion的代码来用,其中一些关键差别如下:
transfusion waymo_dataset_line139
transfusion waymo_dataset_line146
如何使用这个dataloader可见mmdet3d官方的自定义dataset教程
坑:dataset要注册到mmdet3d里,我之前不小心注册到mmdet里了。
也是参考了transfusion改了一下。
不同dataset的target不一样,如果某个detector的实现没有为waymo配置好target,需要修改一下,比如detector不再需要预测速度,所以target dim减2
eval pipeline尚在debug,之后总结一下eval流程,以及如何提交submission。
/waymo_format$ du -h
192G ./validation
759G ./training
27G ./testing
977G .
/kitti_format$ du -h
3.2M ./ImageSets
1.1G ./training/label_all
781M ./training/calib
767G ./training/velodyne
781M ./training/pose
781M ./training/timestamp
855M ./training/label_0
581M ./training/label_1
498M ./training/label_2
504M ./training/label_3
408M ./training/label_4
568G ./training/image_0
579G ./training/image_1
592G ./training/image_2
392G ./training/image_3
400G ./training/image_4
3.3T ./training
63M ./testing/calib
584K ./testing/velodyne
63M ./testing/pose
63M ./testing/timestamp
47G ./testing/image_0
47G ./testing/image_1
46G ./testing/image_2
32G ./testing/image_3
31G ./testing/image_4
200G ./testing
81G ./waymo_gt_database
3.6T .