Kaggle

网站流量预测模型
授权协议 未知
开发语言 Python
所属分类 管理和监控、 日志分析和统计
软件类型 开源软件
地区 不详
投 递 者 穆毅然
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Kaggle 是一个网站流量预测项目,项目采用Python语言开发,可以给大家的流量预测建模提供一些思路。

数据模型

Kaggle的训练数据集由大约14.5万套时间序列组成,每一套时间序列代表的是每天不同维基百科文章页的浏览次数,时间记录的周期为2015年7月1日到2017年9月10日。而我们的目标是为了预测2017年9月13日到2017年11月13日之间每天的页面浏览量。其中,需要检测的流量包括移动端、桌面端以及爬虫流量。

注:模型的评价指标为SMAPE。

测评方法

使用了一个单一的神经网络来对14.5万套时间序列进行建模,该模型架构跟WaveNet非常相似,主要由扩展卷积和因果卷积网络组成,整个概念如下图所示:

2.gif

为了让数据模型适应并生成整个64天的相干预测值,我们还需要对模型进行一些修改。为了在条件信息不足的情况下尽量减少错误序列信息的生成,我们采用了一种“序列-序列”的方法,其中的编码器和解码器不会共享参数。这样一来,我们就可以在模型生成长序列的情况下让解码器来负责处理积累的噪声了。

下面给出的是一些样本预测,并演示了一些可以捕捉和预测的网络模型。其中,预测值为黄色,灰色的是真实数据值,Y轴为对数变换:

3.png 

4.png

配置要求

12 GBGPU(建议)+Python2.7

Python数据包:

numpy==1.13.1

pandas==0.19.2

scikit-learn==0.18.1

tensorflow==1.3.0 

介绍内容来自 FreeBuf

  • 送一篇非常好的文章,https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/ 首先简单介绍一些关于 Kaggle 比赛的知识:     1. 不同比赛有不同的任务,分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。     2. 比赛通常持续 2 ~ 3 个月,每个队伍每天可以提交的次数有限,通常

  • 作者:机器之心 链接:https://www.zhihu.com/question/23987009/answer/203051669 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Kaggle 是一个流行的数据科学竞赛平台,已被谷歌收购,参阅《 业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle》。作为一个竞赛平台,Kaggle 对于初学者来说可能有些

  • pip install kaggle kaggle --> Account --> API --> Create New API Token ,下载得到 kaggle.json 文件, Linux: 存放到 /home/xxx/.kaggle/ 中    xxx表示用户名。一定是.kaggle前面有个点,代表隐藏文件夹。 Windows 用户放到 C:\Users\<Windows-usernam

  • https://www.jianshu.com/p/7da54c564c55 0. 注册及安装 pip install kaggle: 注册 https://www.kaggle.com 账号 【My Account】=> 【Create New API Token】 会自动下载一个 kaggle.json 的json文件; username/key 将其移动到 home 目录下的 .kaggle

  • 小记 前几个月开始玩kaggle,顺便巩固下自己的机器学习知识,记录一些常用到的代码~ 引用 pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别 删除数据的方式 #行删除 train = train.drop(train[(train['GrLivArea']>4000)

  • Kaggle网站的比赛(Competition)可以分为两大类: 面向初学者 1、Getting Started:让初学者体会机器学习比赛 2、Playground:有趣的比赛,主要看创意,而非解决问题 面向竞争者 1、Recruitment:赞助商为招聘数据科学家而设立的比赛 2、Featured:为解决商业问题设立的有奖金的比赛 3、Research:解决学界前沿问题设立的比赛 一般来说,主要

  • Kaggle中常用融合技术 翻译链接:http://blog.csdn.net/a353833082/article/details/50768140 英文链接:http://mlwave.com/kaggle-ensembling-guide/ 模型融合技术可以提高一系列机器学习任务的准确率。在这篇文章中我将会分享大家一些在kaggle比赛中常用的融合方法。 第一部分我们介绍利用提交的文件创建融

  • kaggle 的入门可以从101playground 开始,重要的是要开始做,万事开头难。然后平时要多多看高手的文章,获奖经验。有的高手获奖者甚至会把自己的源代码放上去,你就是去仅仅跑一遍,也能学到非常多的东西。关于kaggle的问题分类:一般就是regression,classification, timeseries这几类。 kaggle的问题一般解决过程:拿到数据之后,第一步就是data e

  • CIFAR-10 - Object Recognition in Images Yelp Restaurant Photo Classification 训练集:7390808幅图像 测试集:7469488幅图像(添加了无效样本,为了防止手工标注作弊) The Nature Conservancy Fisheries Monitoring Planet: Understanding the Ama

 相关资料
  • 作为深度学习基础篇章的总结,我们将对本章内容学以致用。下面,让我们动手实战一个 Kaggle 比赛:房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法,得到令自己满意的结果。 Kaggle 比赛 Kaggle 是一个著名的供机器学习爱好者交流的平台。图3.7展示了 Kaggle 网站的首页。为了便于提交结

  • 使用指南 - 数据报告 - 流量分析 - 网站流量趋势分析 无论是网站的管理部门、产品部门还是运营部门,分析网站时不仅要了解各种维度的基础指标数据,更希望报表能够直接反映出网站流量的波动趋势,是上升还是下降,用户量的变化幅度,各个指标的同比、环比等。网站分析人员需要通过趋势分析,及时发现网站哪些地方可能出现了问题。 百度统计的趋势分析报告,提供基于时间序列的数据趋势分析,可选择任意两段时间的数据进

  • 本节将对HubbleData的自然流量来源进行介绍。主要内容包括功能介绍,归因逻辑,明细数据。 此处流量来源仅指自然流量来源,付费流量来源请关注 1.1. 功能介绍 本文介绍的流量来源仅针对Web端应用生效,主要用来标记用户当前操作的站外来源。分析场景包括: 当前活动页面主要是由什么渠道引入; 从哪个网站(渠道)进入的用户活跃度更高; 在事件分析中,通过如下步骤可以对以上问题进行分析: 选择关注的

  • 问题内容: 我有一个使用Keras和Tensorflow作为后端训练的模型,但是现在我需要将我的模型转换为特定应用程序的张量流图。我尝试执行此操作并进行了预测以确保其正常工作,但是与从model.predict()收集的结果进行比较时,我得到了非常不同的值。例如: 返回: keras预测的值是正确的,但tf图的结果却不正确。 如果它有助于了解最终的预期应用程序,那么我将使用tf.gradients

  • 校验者: @飓风 @小瑶 @FAME @v 翻译者: @小瑶 @片刻 @那伊抹微笑 有 3 种不同的 API 用于评估模型预测的质量: Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是在每个 esti

  • 这是我当前抓取图像类型的代码。一旦它检测到了狗,我会试着让它看到检测的准确性。希望这有道理?

  • -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

  • 教你从零开始一步步使用Hugo构建静态网站,内容详略得当,图文并茂。