灵感来源是这里,他把所有的HDOJ的提交数据抓了下来,大致分析了下AC率随着时间的变化而变化一类的。然后因为人们做题经常在一段时间内接连做相同类型的题,因此往数据挖掘的方向发展的话可以做一个自动的题目分类系统。于是这个我东西应运而生,也顺便看看怎么写userscript。只不过是我抓了我更经常去的POJ的提交数据。
userscript挺方便,安装对应油猴插件后跨浏览器。尤其是chrome原生支持,现在看来当年我写的那个屏蔽淫淫垃圾新鲜事的其实也可以写成userscript。爬虫写的效率比较低,大致只抓了题号和结果,准备抓ranklist里前1W的,目前抓了能有1000吧,不过已经足够提炼出数据了。
因为做某道题不代表最后会AC,很多时候会放弃。而AC后做的题通常是更进阶的题目,放弃后做的相对会简单些。因此对AC和nonAC的情况做分类统计,各取前5名(由于后面很多题过的人很少而且目前只抓了1000人左右的提交数据,因此可能不到5个或者因为数据规模小因此并非同一类的问题).
效果图如下:
个人觉得虽然很简陋但是也算比较实用吧,尤其是随着数据越来越充分之后。然后我给灵感来源diaorui发了个邮件,已经要到他抓的HDOJ的数据,对应的HDOJ版本数据更充分而且十几分钟就能做出来,过几天再说吧。
发表回复