我是Scikit新手,为了工作,我正在从事一个项目,涉及70000个网页~250MB文件的多标签分类。由于文件的大小,我不得不使用核心外分类。这些页面的标签是dmoz类别。因此,每个页面可以有多个标签。
我创建了下面的代码,它是通过改编自Scikit学习的外部核心示例而创建的。但是,下面的代码只为每个文档打印一个标签。
1) 是否有某种方法可以按概率打印每个文档的前5个标签?我将非常感谢对代码的任何提示/修改。
2)鉴于OneVsRest不提供partial_fit方法,什么是支持多标签分类的好分类器
文件\u training\u中的文本组合在一起。csv如下所示
"http://home.earthlink.net/~rvbears/","RV Resources - Camping Information - RV Accessories","","","","","RV Resources - Camping Information - RV Accessories RV Resources\, Camping Resources\, Camping Information RV\, Camping Resources and Information! For Campers\, Travel Trailers\, Motorhome and Fifth Wheels Owners Camping Games Camping Recipes Camping Cooking Supplies RV Books RV E-Books RV Videos/DVD RV Links Looking for rv and camping information\, this is it! Check in here for lots of great resources and information especially for newbies. From Camping Gear\, to RV Books\, E-Books\, and Videos our pages are filled with information about everything to do with Camping and RVing to get you headed in the right direction\, from companies you can trust. Refer to the RV Links section for lots of camping gear and rv accessories\, find just about anything that you are looking for. Coming Back Soon....Our ""PRODUCT REVIEWS BLOG"" Will we be returning to reviewing our best bets on some of the newest camping gadgets for inside and outside your rv or tent. Emergency medical & travel assistance for less than 22 cents a day. Good Sam TravelAssist. Learn More! With over 2 million rescues and recoveries and counting\, Good Sam Roadside Assistance gives our members peace of mind when they travel. RV Accessories\, RV Decor\, RV Books\, RV E-books\, RV Videos\, RV DVDs RV Resources\, Camping Resources\, Camping Information NOTE: RV Ladders Bears are now SOLD OUT Home | Woodworking Links | Link To Us Copyright 2002-2014 GoCampin'. All Rights Reserved. Go Campin' ~ PO BOX 25417 ~ Greenville\, SC 29616-0417","/Top/Shopping/Crafts/Woodcraft/Decorative|/Top/Shopping/Crafts/Woodcraft/HomeDecor"
这只是CSV文件中的一行。我使用的是第6栏中的文本,第7栏中的标签由|分隔
import codecs
import itertools
import time
import csv
import sys
import re
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import MultiLabelBinarizer
import numpy as np
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords
__author__ = 'prateek.jain'
csv.field_size_limit(sys.maxsize)
sep = b","
quote_char = b'"'
stop = stopwords.words('english')
porter = PorterStemmer()
text_rows = []
text_labels = []
training_file_object = codecs.open('file_training_combined.csv','r', 'utf-8')
wr1 = csv.reader(training_file_object, dialect='excel', quotechar=quote_char, quoting=csv.QUOTE_ALL, delimiter=sep)
output_file = 'output.csv'
output_file_object = open(output_file, 'w')
for row in wr1:
text_rows.append(row[6])
labels = row[7].strip().split('|')
empty_list = []
for label in labels:
if not ('http:' in label.lower() or 'www:' in label.lower()):
empty_list.append(label)
text_labels.append(empty_list)
def tokenizer(text):
text = re.sub('<[^>]*>', '', text)
emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)', text.lower())
text = re.sub('[\W]+', ' ', text.lower()) + ' '.join(emoticons).replace('-', '')
text = [w for w in text.split() if w not in stop]
tokenized = [porter.stem(w) for w in text]
return text
# dialect='excel'
def stream_docs(path):
training_file_object = codecs.open(path, 'r', 'utf-8')
wr1 = csv.reader(training_file_object, dialect='excel', quotechar=quote_char, quoting=csv.QUOTE_ALL, delimiter=sep)
print(wr1.next())
for row in wr1:
text, label = row[6], row[7]
labels = label.split('|')
empty_list = []
for label in labels:
if not ('http:' in label.lower() or 'www:' in label.lower()):
empty_list.append(label)
yield text, empty_list
def get_minibatch(doc_stream, size):
docs, y = [], []
for _ in range(size):
text, label = next(doc_stream)
docs.append(text)
y.append(label)
return docs, y
from sklearn.feature_extraction.text import HashingVectorizer
vect = HashingVectorizer(decode_error='ignore',
n_features=2 ** 10,
preprocessor=None,
lowercase=True,
tokenizer=tokenizer,
non_negative=True, )
clf = MultinomialNB()
doc_stream = stream_docs(path='file_training_combined.csv')
merged = list(itertools.chain(*text_labels))
my_set = set(merged)
class_label_list = list(my_set)
all_class_labels = np.array(class_label_list)
mlb = MultiLabelBinarizer(all_class_labels)
X_test_text, y_test = get_minibatch(doc_stream, 1000)
X_test = vect.transform(X_test_text)
classes = np.array([0, 1])
tick = time.time()
accuracy = 0
total_fit_time = 0
n_train_pos = 0
for _ in range(45):
X_train, y_train = get_minibatch(doc_stream, size=1000)
X_train_matrix = vect.fit_transform(X_train)
y_train = mlb.fit_transform(y_train)
print X_train_matrix.shape, ' ', y_train.shape
clf.partial_fit(X_train_matrix.toarray(), y_train, classes=all_class_labels)
total_fit_time += time.time() - tick
n_train = X_train_matrix.shape[0]
n_train_pos += sum(y_train)
tick = time.time()
predicted = clf.predict(X_test)
all_labels = predicted
for item, labels in zip(X_train, all_labels):
print '%s => %s' % (item, labels)
output_file_object.write('%s => %s' % (item, labels) + '\n')
因为只有250mb,所以没有理由离开核心。或者您的内存是否少于250mb?要获得前k个预测,可以使用predict_proba或decision_函数来获得每个标签的可能性。
我正在尝试使用Scikit-Learn的来编码字符串标签的pandas。由于dataframe有许多(50+)列,我希望避免为每个列创建对象;我宁愿只有一个大的对象,它可以跨我的所有数据列工作。 将整个抛入会产生以下错误。请记住,我在这里使用的是虚拟数据;实际上,我正在处理大约50列字符串标记的数据,因此需要一个不引用任何列名称的解决方案。 回溯(最近一次调用):文件“”,第1行,在文件“/use
从sklearn加载流行数字数据集。数据集模块,并将其分配给可变数字。 分割数字。将数据分为两组,分别命名为X_train和X_test。还有,分割数字。目标分为两组Y_训练和Y_测试。 提示:使用sklearn中的训练测试分割方法。模型选择;将随机_状态设置为30;并进行分层抽样。使用默认参数,从X_序列集和Y_序列标签构建SVM分类器。将模型命名为svm_clf。 在测试数据集上评估模型的准确
说明 该文档为“3Blue1Brown - 深度学习系列视频”的整理,主要包括三个视频 神经网络的结构 梯度下降法 反向传播算法 让我们跟着 3Blue1Brown 从偏数学的角度来理解神经网络(原视频假设观众对神经网络没有任何背景知识) 目录 内容: 神经网络是什么? 神经网络的结构 神经网络的工作机制 深度学习中的“学习”指的是什么? 神经网络的不足 示例:一个用于数字手写识别的神经网络 这个
如何计算多类文本分类的FPR、TPR、AUC、roc_曲线-我使用了以下代码- 到这里为止,每件事都运行良好-但是一旦我使用以下代码,就会出错- 错误是- Traceback(最近的调用最后): 文件"C:/用户/saurabh/PycharmProjects/getting_started/own_code.py",第32行,打印(metrics.roc_auc_score(y_test,y_p
校验者: @小瑶 翻译者: @李昊伟 校验者: @hlxstc @BWM-蜜蜂 @小瑶 翻译者: @... 内容提要 在本节中,我们介绍一些在使用 scikit-learn 过程中用到的 机器学习 词汇,并且给出一些例子阐释它们。 机器学习:问题设置 一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是 多个属性的数据 (比如说是一个多维记录),
Scikit-learn 套件的安装 目前Scikit-learn同时支持Python 2及 3,安装的方式也非常多种。对于初学者,最建议的方式是直接下载 Anaconda Python (https://www.continuum.io/downloads)。同时支持 Windows / OSX/ Linux 等作业系统。相关数据分析套件如Scipy, Numpy, 及图形绘制库 matplot
我正在使用scikit-learn 0.14的GridSearchCV,但总是得到以下警告: /Library/Frameworks/epd 64 . framework/Versions/7.2/lib/python 2.7/site-packages/sk learn/grid _ search . py:706:deprecation warning:忽略GridSearchCV的附加参数!
我希望在PostgreSQL plpython3u语言函数中使用Scikit学习Python机器学习库。最简单的方法来安装Scikit学习(连同先决条件NumPy和SciPy)是安装Anaconda。 Anaconda附带了内置的Python 3.5。但是,PostgreSQL 9.5 EnterpriseDB安装程序安装的PostgreSQL需要Python 3.3,并且不使用Python 3.