本文记录了我对owllook.net这一网络小说搜索引擎的推荐系统的分析与设计过程。这个项目是开源项目,地址在owllook repo,目前已经积累了一定的数据量,需要一个靠谱的推荐系统。注意我用到的数据是内部数据,并没有开源。
本文使用推荐算法包括:基于用户的协同过滤(UserCF)、基于物品的协同过滤(ItemCF)、基于流行度的推荐、随机推荐、基于用户标签相似度的推荐等算法。通过对比发现基于用户标签相似度的推荐算法表现效果最佳,目前已经将该算法在线上使用。
本文记录了我对owllook.net这一网络小说搜索引擎的推荐系统的分析与设计过程。这个项目是开源项目,地址在owllook repo,目前已经积累了一定的数据量,需要一个靠谱的推荐系统。注意我用到的数据是内部数据,并没有开源。
本文使用推荐算法包括:基于用户的协同过滤(UserCF)、基于物品的协同过滤(ItemCF)、基于流行度的推荐、随机推荐、基于用户标签相似度的推荐等算法。通过对比发现基于用户标签相似度的推荐算法表现效果最佳,目前已经将该算法在线上使用。
项亮的《推荐系统实践》是一本面向推荐系统初学者的好书。这本书中间花了不少的篇幅去介绍了推荐系统中很重要的一个算法:协同过滤。囿于书中的篇幅限制,作者只给出了核心部分的代码。基于此书内容,我动手实现了基于用户的协同过滤算法和基于物品的协同过滤算法,并在MovieLens数据集上做了测试,效果令人满意。现在总结一下自己对协同过滤系统的理解和动手实践过程的经验。
本电影推荐系统已开源在:https://github.com/fuxuemingzhu/MovieLens-Recommender
如果问大家离开北邮最不舍的东西是什么?很多人肯定会脱口而出:北邮人BT!显然,北邮人BT已经融为每个BYR生活的一部分了。那么就从这个网站下手,练一练Python的爬虫吧。
很早之前写这篇文章时,对下载北邮人BT的资源的理解是先通过模拟北邮人BT登录,然后用代码下载资源。现在觉得这么做太复杂了,所以这篇文章就改成用python模拟登录北邮人BT的教程吧。
最近有了审美强迫症,不仅让自己的Ubuntu变得很酷炫,还想把自己的博客变得更吸引眼球。调了两三天的博客,只为让博客变得更美。
记录一下我的调整的地方,也为了让大家更能看到我博客的亮点。
模拟登录北邮人论坛可能是每个学着写爬虫的北邮人必备技能了。在网上和论坛上也有相关资料,但质量参差不齐,有些甚至不能实现模拟登录。因此,这里我使用requests库和urllib2库两种方法,分别实现了北邮人论坛的模拟登录。
教程所需环境:
为什么要开这篇文章?就是因为我这两天已经被Hexo折腾得够呛!
诚然,Hexo一键部署博客给写作带来了很大的便利,但是不可否认的是,Hexo的错误让人摸不到头脑,只有反复尝试才能得出正确结果。
因此,奉劝大家,不要瞎升级Hexo!不要瞎改动Hexo!不要瞎折腾Hexo!
这里记录下我踩过的各种坑,留给大家排坑,也方便自己以后查找问题。
这是一份阶段性总结。虽然并没有明显的分界线,但我感觉过了这么久,总该写点什么吧,给以后的自己看。碰巧也遇到不少烦心事,闲着也是闲着,趁这种干不了其他事的时候自己反思一下自己罢。
这是篇给自己看的保留文章,完全是想到哪写到哪,特别没意思,游客止步吧。