进一步探索分类 - 新的数据集，新的挑战

优质

小牛编辑

146浏览

2023-12-01

是时候使用新的数据集了——比马印第安人糖尿病数据集，由美国国家糖尿病、消化和肾脏疾病研究所提供。

新的数据集，新的挑战 - 图1

令人惊讶的是，超过30%的比马人患有糖尿病，而全美的糖尿病患者比例是8.3%，中国只有4.2%。

数据集中的一条记录代表一名21岁以上的比马女性，她们分类两类：五年内查出患有糖尿病，以及没有得病。

共选取了8个特征：

怀孕次数；
口服葡萄糖耐量实验两小时后的血浆葡萄糖浓度；
舒张压（mm Hg）；
三头肌皮褶厚度（mm）；
血清胰岛素（mu U/ml）；
身体质量指数（BMI）：体重（公斤）除以身高（米）的平方；
糖尿病家谱；
年龄（岁）。

以下是示例数据，最后一列的0表示没有糖尿病，1表示患有糖尿病：

新的数据集，新的挑战 - 图2

比如说，第一条记录表示一名生过两次小孩的女性，她的血糖浓度是99，舒张压是52，等等。

新的数据集，新的挑战 - 图3

实践[1]

本书提供了两份数据集：pimaSmall.zip和pima.zip。前者包含100条记录，后者包含393条记录，都已经等分成了10个文件（10个桶）。我用前面实现的近邻算法计算了pimaSmall数据集，得到的结果如下：

新的数据集，新的挑战 - 图4

提示：代码中的 heapq.nsmallest(n, list) 会返回n个最小的项。heapq 是Python内置的优先队列类库。

你的任务是实现kNN算法。

首先在类的init函数中添加参数k：

def __init__(self, bucketPrefix, testBucketNumber, dataFormat, k):

knn函数的签名应该是：

def knn(self, itemVector):

它会使用到self.k（记得在init函数中保存这个值），它的返回值是0或1。

此外，在进行十折交叉验证（tenFold函数）时也要传入k参数。

解答

init函数的修改很简单：

def __init__(self, bucketPrefix, testBucketNumber, dataFormat, k):
    self.k = k
    ...

knn函数的实现是：

def knn(self, itemVector):
    """使用kNN算法判断itemVector所属类别"""
    # 使用heapq.nsmallest来获得k个近邻
    neighbors = heapq.nsmallest(self.k,
                                [(self.manhattan(itemVector, item[1]), item)
                                 for item in self.data])
    # 每个近邻都有投票权
    results = {}
    for neighbor in neighbors: 
        theClass = neighbor[1][0]
        results.setdefault(theClass, 0)
        results[theClass] += 1
    resultList = sorted([(i[1], i[0]) for i in results.items()], reverse=True)
    # 获取得票最高的分类
    maxVotes = resultList[0][0]
    possibleAnswers = [i[1] for i in resultList if i[0] == maxVotes]
    # 若得票相等则随机选取一个
    answer = random.choice(possibleAnswers)
    return(answer)

对tenFold函数的改动如下：

def tenfold(bucketPrefix, dataFormat, k):
    results = {}
    for i in range(1, 11):
        c = Classifier(bucketPrefix, i, dataFormat, k)
        ...

你可以从网站上下载这些代码，不过我的代码并不一定是最优的，仅供参考。

实践[2]

在分类效果上，究竟是数据量的多少比较重要（即使用pimaSmall和pima数据集的效果），还是更好的算法比较重要（k=1和k=3）？

解答

以下是比较结果：

新的数据集，新的挑战 - 图5