序言
进实验室以来的第一个项目,原来是搞安全出身的,现在研究的方向是社交网络中的数据挖掘,更偏向于CS,所以好好干!
详细代码请见我的github: https://github.com/HMY626/Entity-Search-On-Twitter
实验过程
我原来是打算找一些开源的数据集,但是像Facebook, Twitter对个人隐私数据保护比较重视的平台,数据是不可能开源的。一开始打算用Facebook,但是FB官方连获取用户间点赞信息的权限都不给我,这就难受了,没数据挖掘个锤子?
最后费劲周折,终于Twitter官方通过了对我的审核,况且推特不像FB,它可以单向发生联系(我可以关注你,不管我们是不是好友), 而FB却不行,选Twitter对于后续构建社交网络拓扑图也有很大的帮助。
在一开始踩的一个雷:由于Twitter在 2018 年 6 月 19 日关闭了之前的API,导致原先的api不能用,而且更新之后Twitter对隐私保护更加重视,使得爬取Twitter数据有了很大的限制。
我参考了一些书目,最终采用申请Twitter开发者app应用权限的方式,官方审核通过之后,搜索了Twitter上全球热度榜的话题与全美热度的话题做交集,选出公共热度榜前Top10,并将这些话题以及他们关注者(followers)的Twitter_ids
作为节点,构建社交网络拓扑图。如下图所示:
然后,我对已经构建好的社交网络拓扑图采用广度优先遍历的图搜索算法针对上图中一个重要的节点爬取用户的个人资料信息(user profile),并将其存入数据库中以便未来进行深度挖掘。由于Twitter在更新api之后对于api请求次数做了限制,一次只能发起最多5000次api请求,如果超过阈值就会对ip封禁15分钟,所以我搜索的深度只有2。
接着,我查询上图中某个热门话题提取推文实体,进行了词频分析、语义丰富度分析、查找转推状态的用户、提取转推属性,存储用户发表的最新推文等深度数据挖掘与分析。以下选取了ianozsvald这个节点进行搜索事例:
搜索热门推文
提取推文实体(以下只截取了5篇热门推文)
统计词频并计算语义丰富度
数据集简介
数据集是爬取的包含有全球十大热门话题实体的推文元数据,数据集statuses.json样例如下图所示:
1 | [ |
网络建模方法
我采用的是无标度网络的建模方法,因为在Twitter的社交网络拓扑图中大部分节点只有少数几个链接,而某些节点例如下图中的几大热门话题节点:[localben, lovedaybrooke, brouberol, ianozsvald, morconsulting, jameshaycock, markpriestley]
却拥有与其他节点的大量链接,所以才用无标度网络的建模方法。
用户建模方法
在本次项目中我采用用户所处地区、用户的关注话题、用户发表推文的语义丰富度进行建模,以此来找出某个时间段某个地区大家所讨论的热门话题;并且通过计算用户推文的语义丰富度来分析大众对于某一话题观点是否一致性。由于对用户建模方法了解得还不是很多,所以建模比较粗浅,不过在后续的学习过程中应该会慢慢改善。