条款16: 如何将vector和string的数据传给遗留的API

优质
小牛编辑
136浏览
2023-12-01

条款16: 如何将vector和string的数据传给遗留的API

因为C++语言已经在1998年标准化,C++的中坚分子在努力推动程序员从数组转到vector时就没什么顾虑了。同样明显的情况也发生于尝试使开发者从char*指针迁移到string对象的过程中。有很好的理由来做这些转变,包括可以消除常见的编程错误(参见条款13),而且有机会获得STL算法的全部强大能力(比如参见条款31)。

但是,障碍还是有的,最常见的一个就是已经存在的遗留的C风格API接受的是数组和char*指针,而不是vector和string对象。这样的API函数还将会存在很长时间,如果我们要有效使用STL的话,就必须和它们和平共处。

幸运的是,这很容易。如果你有一个vector对象v,而你需要得到一个指向v中数据的指针,以使得它可以被当作一个数组,只要使用&v[0]就可以了。对于string对象s,相应的咒语是简单的s.c_str()。但是继续读下去。如广告中难懂的条文时常指出的,必然会有几个限制。

给定一个

vector<int> v;

表达式v[0]生产一个指向vector中第一个元素的引用,所以,&v[0]是指向那个首元素的指针。vector中的元素被C++标准限定为存储在连续内存中,就像是一个数组,所以,如果我们想要传递v给这样的C风格的API:

void doSomething(const int* pInts, size_t numInts);

我们可以这么做:

doSomething(&v[0], v.size());

也许吧。可能吧。唯一的问题就是,如果v是空的。如果这样的话,v.size()是0,而&v[0]试图产生一个指向根本就不存在的东西的指针。这不是件好事。其结果未定义。一个较安全的方法是这样:

if (!v.empty()) {
	doSomething(&v[0], v.size());
}

如果你在一个不好的环境中,你可能会碰到一些半吊子的人物,他们会告诉你说可以用v.begin()代替&v[0],因为(这些讨厌的家伙将会告诉你)begin返回指向vector内部的迭代器,而对于vector,其迭代器实际上是指针。那经常是正确的,但正如条款50所说,并不总是如此,你不该依赖于此。begin的返回类型是iterator,而不是一个指针,当你需要一个指向vector内部数据的指针时绝不该使用begin。如果你基于某些原因决定键入v.begin(),就应该键入&*v.begin(),因为这将会产生和&v[0]相同的指针,这样可以让你有更多的打字机会,而且让其他要弄懂你代码得人感觉到更晦涩。坦白地说,如果你正在和告诉你使用v.begin()代替&v[0]的人打交道的话,你该重新考虑一下你的社交圈了。(译注:在VC6中,如果用v.begin()代替&v[0],编译器不会说什么,但在VC7和g++中这么做的话,就会引发一个编译错误)

类似从vector上获取指向内部数据的指针的方法,对string不是可靠的,因为(1)string中的数据并没有保证被存储在独立的一块连续内存中,(2)string的内部表示形式并没承诺以一个null字符结束。这解释了string的成员函数c_str存在的原因,它返回一个按C风格设计的指针,指向string的值。因此我们可以这样传递一个string对象s给这个函数,

void doSomething(const char *pString);

像这样:

doSomething(s.c_str());

即使是字符串的长度为0,它都能工作。在那种情况下,c_str将返回一个指向null字符的指针。即使字符串内部自己内含null时,它同样能工作。但是,如果真的这样,doSomething很可能将第一个内含的null解释为字符串结束。string对象不在意是否容纳了结束符,但基于char*的C风格API在意。

再看一下doSomething的声明:

void doSomething(const int* pints, size_t numInts);
void doSomething(const char *pString);

在两种形式下,指针都被传递为指向const的指针。vector和string的数据只能传给只读取而不修改它的API。这到目前为止都是最安全的事情。对于string,这也是唯一可做的,因为没有承诺说c_str产生的指针指在string数据的内部表示形式上;它可以返回一个指针指向数据的一个不可修改的拷贝,这个拷贝满足C风格API对格式的要求。(如果这个恐吓令你毛骨悚然的话,还请放心吧,因为它也许不成立。我没听说目前哪个库的实现使用了这个自由权的。)

对于vector,有更多一点点灵活性。如果你将v传给一个修改其元素的C风格API的话,典型情况都是没问题,但被调用的函数绝不能试图改变vector中元素的个数。比如,它绝不能试图在vector还未使用的容量上“创建”新的元素。如果这么干了,v的内部状态将会变得不一致,因为它再也不知道自己的正确大小了。v.size()将会得到一个不正确的结果。并且,如果被调用的函数试图在一个大小和容量(参见条款14)相等的vector上追加数据的话,真的会发生灾难性事件。我甚至根本就不愿去想象它。实在太可怕了。

你注意到我在前面的“典型情况都是没问题”那句话用的是“典型地”一词吗?你当然注意到了。有些vector对其数据有些额外的限制,而如果你把一个vector传递给需要修改vector数据的API,你一定要确保这些额外限制继续被满足。举个例子,条款23解释了有序vector经常可以作为关联容器的替代品,但对这些vector而言,保持顺序非常重要。如果你将一个有序vector传给一个可能修改其数据的API函数,你需要重视vector在调用返回后不再保持顺序的情况。

如果你想用C风格API返回的元素初始化一个vector,你可以利用vector和数组潜在的内存分布兼容性将存储vecotr的元素的空间传给API函数:

// C API:此函数需要一个指向数组的指针,数组最多有arraySize个double
// 而且会对数组写入数据。它返回写入的double数,不会大于arraySize
size_t fillArray(double *pArray, size_t arraySize);
vector<double> vd(maxNumDoubles);				// 建立一个vector,
							// 它的大小是maxNumDoubles
vd.resize(fillArray(&vd[0], vd.size()));			// 让fillArray把数据
							// 写入vd,然后调整vd的大小
							// 为fillArray写入的元素个数

这个技巧只能工作于vector,因为只有vector承诺了与数组具有相同的潜在内存分布。但是,如果你想用来自C风格API的数据初始化string对象,也很简单。只要让API将数据放入一个vector<char>,然后从vector中将数据拷到string:

// C API:此函数需要一个指向数组的指针,数组最多有arraySize个char
// 而且会对数组写入数据。它返回写入的char数,不会大于arraySize
size_t fillString(char *pArray, size_t arraySize);
vector<char> vc(maxNumChars);				// 建立一个vector,
							// 它的大小是maxNumChars
size_t charsWritten = fillString(&vc[0], vc.size());		// 让fillString把数据写入vc
string s(vc.begin(), vc.begin()+charsWritten);		// 从vc通过范围构造函数
							// 拷贝数据到s(参见条款5)

事实上,让C风格API把数据放入一个vector,然后拷到你实际想要的STL容器中的主意总是有效的:

size_t fillArray(double *pArray, size_t arraySize);		// 同上

vector<double> vd(maxNumDoubles);				// 一样同上
vd.resize(fillArray(&vd[0], vd.size()));

deque<double> d(vd.begin(), vd.end());			// 拷贝数据到deque
list<double> l(vd.begin(), vd.end());			// 拷贝数据到list
set<double> s(vd.begin(), vd.end());				// 拷贝数据到set

此外,这也提示了vector和string以外的STL容器如何将它们的数据传给C风格API。只要将容器的每个数据拷到vector,然后将它们传给API:

void doSomething(const int* pints, size_t numInts);		// C API (同上)
set<int> intSet;						// 保存要传递给API数据的set
...
vector<int> v(intSet.begin(), intSet.end());			// 拷贝set数据到vector
if (!v.empty()) doSomething(&v[0], v.size());			// 传递数据到API

你也可以将数据拷进一个数组,然后将数组传给C风格的API,但你为什么想这样做?除非你在编译期就知道容器的大小,否则你不得不分配动态数组,而条款13解释了为什么你应该总是使用vector来取代动态分配的数组。