覃韦初、莫恒全教授声明

从2012年开始,覃韦初、莫恒全教授是“恒全教育”独家特聘的公务员考试专职辅导教师,不再为其他公务员考试培训机构上课。今后凡以覃韦初、莫恒全教授的名义进行招生宣传的,均为虚假宣传,属于侵权行为。请广大考生注意!声明人:覃韦初 莫恒全二〇一一年十二月二十五日

在线报名

联系我们

  • 主办机构——
    广西行政学院区直机关分院
    新万博苹果有限公司
    南宁市学成文化教育培训学校
    广西臻实项目数据分析师事务所
    办公地址:南宁市民族大道85-2号广西区直行政学院办公室102室
    乘车路线:6、11、34、39、43、60、79、211、704(麻村站下),12、20、65、206、220、
  • 601、603(葛村新竹路口下)
    联系电话:0771-5862701、5862702、5862703、18978862530、13517886939
    传真号码:0771-5700174
    联 系 人:覃老师、谢老师、韦老师
    对公汇款帐户——
    开户名称:广西南宁恒全教育咨询有限公司
    开 户 行:南宁市工商银行民族支行
    银行帐号:2102 1090 0930 0356 918
    项目交流QQ平台——
    公务员群:179904058
    事业单位群:142434130
    职称外语群:29989742
    文秘写作群:244046175
    建造师群:262706864
    经济师群:262707100
    工程硕士群:246058817
    办公软件群:285730372
    东盟小语种群:10852734
  • 恒全教育YY语音:744682888
    恒全教育呱呱视频社区:161103863

详细信息 

您现在的位置:首页 ›› 项目分析事务所 ›› 简述网站用户行为分析及推荐

 

简述网站用户行为分析及推荐

  广西臻实项目数据分析师事务所特约分析师  陈虹坚/文

一、挖掘背景

    随着如今电子商务、网上服务平台及网上交易等互联网业务的普及,对于企业而言,网站访问量越大,相应的数据信息量也不断增大,平台上大量的用户信息聚集起来,形成了海量的数据,如何在海量的数据中筛选出有价值的信息,研究用户的兴趣与偏好,分析用户的需求与行为,从而引导用户发现自己的需求,并准确的将服务推荐给用户,使服务更有针对性,已成为企业关注的重点问题。

    本文以某教育网站为例,简述如何基于用户的偏好信息,预测用户的行为,帮助用户发现需求并进行推荐。

二、数据抽取及分析

    在数据抽取过程中,尽可能选择大量的数据,以此降低推荐结果的随机性,提高准确性,更好的发掘用户感兴趣的商品。以用户访问时间为条件,选取3个月内用户的访问数据作为原始数据集,为避免不同区域用户喜好的差异性,本例抽取南方某省的用户访问数据进行分析,数据总量有968435条,包括用户账号、访问时间、来源网站、访问页面、主题、来源网页、类别、关键词等字段。

    对原始数据中的网页类型、点击次数和网页排名等各个维度进行分布分析,获得其内在的规律,在此基础上,完成原始数据的清洗与变换,处理后进行属性规约,提取模型需要的属性。

三、模型建立

    电子商务中推荐系统主要通过统计和数据挖掘技术,根据用户在网站的访问行为,主动地为用户提供推荐服务,从而提高用户体验,促成消费。商业需求的不同,推荐系统则要满足不同的推荐方式。如商品推荐、类目推荐、标签推荐等。常用的推荐模型主要有规则模型、协同过滤模型和基于内容的推荐模型,不同的推荐模型使用不同的推荐算法,例如规则模型,常用的算法有Apriori;协同过滤模型中涉及K最近邻居算法、因子模型等。实际应用过程中,并不采用单一的推荐方法进行推荐,为达到理想的推荐效果,一般都结合多种推荐方法将推荐结果进行组合,最后得出推荐结果。

    结合本例子的具体业务场景及实际情况,分析的目标有以下特点:用户个性化需求强烈,推荐结果实时变化,长尾网页丰富,网页数小于用户数,因此,本文例子以协同算法为主导,对用户进行个性化推荐。协同过滤是相当成功的推荐系统技术,已被应用在很多成功的推荐系统中。

    基于物品的协同过滤系统的一般处理步骤为,首先分析用户与物品的数据集;其次通过用户对项目的喜好与偏爱找到相似的物品;最后,根据用户的历史喜好,推荐相似的物品给目标用户。基于上述的过程,基于物品的协同过滤算法主要为:1.计算物品之间的相似度;2. 结合物品的相似度和用户的历史行为给目标用户生成推荐列表。其中物品相似度的计算方法有夹角余弦、杰卡德相似系数、相关系数等,其原理及计算公式本文不再赘述。

    完成各物品的相似度计算后,可生成一个物品间的相似度矩阵,用Python借助Numpy来实现协同过滤算法不困难,部分代码示例如下:

Import numpy as np

def jaccard(a,b):

  return 1.0*(a*b).aum()/(a+b-a*b).sum()

class recommender():

sim=none

def similarity(self,x,distance):

  y=np.ones((len(x), len(x)))

  for I in range (len(x)):

for j in range (len(x)):

y[I,j]=distance(x[i],x[j])

return y

def fit(self,x, distance=jaccard):

  self.sim= self.similarity(x, distance)

def recommend(self,a):

  return np.dot(self.sim,a)*(1-a)

部分代码示例

    本例采用了最基本的协同过滤算法进行建模,得出的模型及其结果也仅是初步的效果,在实际的应用中,需要结合业务进行分析,对模型进行进一步的改造,以适应业务需求。

四、小结

    推荐系统除了上述介绍的协同过滤算法外,还有其他常用的算法,推荐系统的目的在于基于用户的偏好信息,预测用户的行为,帮助用户发现可能会感兴趣,但却不一定发现的商品给用户进行推荐。同时,推荐模型也面临着许多重要的问题,例如特征提取问题,如何从商品标签、分类和属性中获取商品的重要特征;新用户问题,如何解决在用户行为少的情况下提高推荐质量;新商品的问题,如何让更多的商品有推荐展示的机会;稀疏性的问题,面对庞大的用户和商品数据,用户的评价会显得十分稀疏等。面对这些问题,在实际的应用中,需要根据不同的业务场景,利用各种算法的优点,设计出混合的推荐算法,以提升推荐质量。

 

备注:

  1.广西臻实项目数据分析师事务所业务范围:

●投资项目评估、经济效益评价、项目数据处理、项目融资、投资项目策划、社会经济咨询等。

●专业项目数据分析评估:为众多投资人提供专业项目分析服务,减少投资风险;

●撰写项目数据分析报告:为项目方编写项目数据分析报告;

●提供融资服务:项目融资与项目分析工作紧密相连,是项目分析工作价值的体现;

●项目理财策划:项目运营的关健是现金流,是数据真实的体现, CPDA重要的工作是对未来运营情况的判…

2.广西数据分析师探讨交流QQ群:117268053

3.业务咨询电话:0771-5862703/18978862530 韦勋峰经理

 

 

 

 

 

 

推一把28推百度