Py之GraphLab:graphlab库的简介、安装、使用方法之详细攻略
目录
5、比较GraphLab和scikit-learn——GraphLab Create和scikit-learn哪个更好
GraphLab 是由CMU(卡内基梅隆大学)的Select 实验室在2010 年提出的一个基于图像处理模型的开源图计算框架,框架使用C++语言开发实现。该框架是面向机器学习(ML)的流处理并行计算框架,可以运行在多处理机的单机系统、集群或是亚马逊的EC2 等多种环境下。框架的设计目标是,像MapReduce一样高度抽象,可以高效执行与机器学习相关的、具有稀疏的计算依赖特性的迭代性算法,并且保证计算过程中数据的高度一致性和高效的并行计算性能。
为了实现机器学习算法通用性的目标,CMU 的Select 实验室开发出了GraphLab。该框架最初是为处理大规模机器学习任务而开发的,但是该框架也同样适用于许多数据挖掘方面的计算任务。在并行图计算领域,该框架在性能上高出很多其他并行计算框架(例如,MapReduce、Mahout)几个数量级。GraphLab 自成立以来就是一个发展很迅速的开源项目,其用户涉及的范围也相当广泛,全球有2 000 多个企业、机构使用GraphLab。
官网介绍:https://reviews.financesonline.com/p/graphlab-create/
GraphLab 的设计目标是在集群或者多处理机的单机系统上实现大规模的机器学习算法。一般的机器学习类算法有以下两个特性。
在GraphLab 出现之前,针对这些机器学习的算法,普遍的编程方法是采用MPI 和PThread 这些已有的底层开发库来完成这类计算问题。采用这种编程模型的开发应用,针对具体的应用,需要开发者实现相应的算法来完成计算过程中集群计算节点之间主机通信和数据同步等底层操作。这种开发方法的优势在于,可以针对具体的应用对代码进行深度的优化,以达到很高的性能。但是对于不同的应用,需要重写代码实现底层的数据分配、数据通信等细节,这就导致了代码重用率很低,可拓展性差,对编程人员要求高。这种编程模型显然不适合当前敏捷的互联网开发。而当前被广泛使用的MapReduce 计算框架,在并行执行多任务的时候,要求各个任务之间相互独立,任务执行期间不需要相互之间进行数据通信,所以MapReduce 不适合数据依赖性强的任务,而且MapReduce 并行计算模型也不能高效表达迭代型算法。这种计算模型在处理如日志分析、数据统计等数据独立性的任务时具有明显的优势,但是在机器学习领域,MapReduce 框架并不能很好地满足机器学习计算任务。
GraphLab 作为一个基于图处理的并行计算框架,能够高效地执行机器学习相关的数据依赖性强,迭代型算法,其设计具有如下特点和优点。
推荐文章:https://comparisons.financesonline.com/graphlab-create-vs-scikit-learn
为您的公司找到完美的人工智能软件对于提高公司的效率至关重要。在我们的平台上,很容易评估众多的解决方案,以确定哪一个是满足您需求的理想软件。在这里,您可以匹配GraphLab Create和scikit-learn,并查看它们的总分数(分别为8.3和8.9)和用户满意度(分别为100%和100%)。还可以浏览成本、条件、计划、功能、工具等的详细信息,并找出哪些软件为您的企业提供了更多的优势。一般来说,选择那些让你可以扩展功能和定价的软件,以补充你的公司的增长或缺乏它。如果你时间紧迫,或者需要我们的专家提供人工智能软件建议,你可能想看看今年的最佳选择:Salesforce Einstein、云机器学习引擎、Azure机器学习工作室。
当你测试不同的人工智能软件服务时,你不应该只研究它们的功能列表和提供的定价方案。记住,解决方案应该与你的需求和业务相匹配,所以他们提供的服务越灵活越好。了解GraphLab Create和scikit-learn支持哪些平台,并确保您将获得公司中使用的任何设备的移动支持。您还应该了解支持哪些语言和国家,因为这可能是许多公司的关键因素。
pip2 install --upgrade --no-cache-dir https://get.graphlab.com/GraphLab-Create/2.1/your registered email address here/your product key here/GraphLab-Create-License.tar.gz -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install GraphLab-Create
您可以直接从Github存储库下载GraphLab PowerGraph。如果你没有git的话,Github还提供了仓库的zip下载。
git clone https://github.com/graphlab-code/graphlab.git
cd graphlab
import graphlab
graphlab.SFrame('test.csv')
graphlab.SFrame('file_name') #也可导入Graphlab格式的文件
#绘图
graphlab.canvas.set_target('ipynb')
sales.show(view="Scatter Plot", x="sqft_living", y="price")
#切分数据集
train_data,test_data = sales.random_split(.8,seed=0)
#载入模型
sqft_model = graphlab.linear_regression.create(train_data, target='price', features=['sqft_living'],validation_set=None)
sqft_model.predict(house2)
#或者
sentiment_model = graphlab.logistic_classifier.create(train_data,
target='sentiment',
features=['word_count'],
validation_set=test_data)
giraffe_reviews['predicted_sentiment'] = sentiment_model.predict(giraffe_reviews, output_type='probability')
#模型评估
sqft_model.evaluate(test_data)
sqft_model.get('coefficients')
sqft_model['coefficients']