R语言包的操作与管理

R包是由一系列函数、帮助文档和数据文件组成的文件束,R包提供了大量的功能:绘图、统计、机器学习、数据处理等。丰富多彩的R包是R语言最具魅力的地方。就像哆啦A梦的口袋,应有尽有。

使用R包之前,你首先得把它安装到本地的库中,并在使用之前加载它。以使用决策树算法C5.0的R包C50为例:
首先安装R包:install.packages("C50") ,如需同时安装多个包这样写:install.packages(c("C50","pmml"));
使用前,需先加载R包:libraray(C50),如需加载指定路径的包可通过lib.loc参数,如library("C50", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.2");
关闭R包:detach("package:C50", unload=TRUE),这并不会删除这个包,只是退出加载状态而已;
卸载R包:remove.packages("C50"),当然这里也可以通过参数lib来指定包的路径。

继续阅读“R语言包的操作与管理”

R语言实现随机森林建模的实例

问题,用户注册七天内,通过用户的浏览行为判断用户是否会付费?

输入变量:
pv(浏览量)、hotdays(活跃天数)、time(活跃时长)、aciton(关键动作数)

目标:
ispay(是否付费)

R程序过程:

# 读取数据
a <- read.delim("~/rwork/data")

# 数据详情如下
str(a)

221003shttxxq5hzh55gtx

 

# 随机森林建模
tree<-randomForest(as.factor(ispay)~.,data=a)

pr<-predict(tree, newdata=a)

table(a$ispay,pr,
dnn=c("Actual", "Predicted"))

继续阅读“R语言实现随机森林建模的实例”

流量来源和会话记录方案(Google analytics版)

Google analytics 记录会话来源cookie的有效期为180天,至少需要记录5个值:
utmcsr:即utm_source,一般记录会话的来源站点,如baidu.com,sina.com等。直接来源计为:utmcsr=(direct);
utmccn:即utm_campaign,记录来源活动,如CPC的广告计划、edm的任务id等。无来源活动的会话可记为:utmccn=(referral)|utmccn=(direct)|utmccn=(organic) 等来源信息;
utmcmd:即utm_medium,记录通过何种媒介访问网站,如cpc、cps、referral、organic。我们也可以标识一些重要媒介:edm、cctalk、weixin等。无来源媒介记为:utmcmd=(none);
utmctr:即utm_term,记录搜索关键词。非搜索来源的会话,此处不做记录;
utmcct:即utm_content,记录来源的具体内容,如cpc广告的广告词、referer的引荐路径等。若无来源具体内容,则此处不做记录。

会话的划分主要有两个因素决定:时间和来源。

继续阅读“流量来源和会话记录方案(Google analytics版)”