只会java的我,最近想做个音乐推荐系统,关于爬虫的学习,请问要从Java入手还是学python?
对于爬虫来说,py确实比JAVA方便太多。但本质上py包可以实现的功能,J***a都可以做,只不过要写很多代码。我曾用J***a爬过汽车之家,也用py爬过discuz论坛,且需要输入验证码登录的场景。总体感觉而言,爬虫的关键问题是:1、如何从网页上获取所需信息,这个需要正则表达式;2、涉及到登录或cookies的时候,需要了解https的get和post等过程;3、当目标网站有防爬系统时,要构造分布式爬虫或通过自动代理的爬虫。4、还要处理各种意外,比如目标网站突然暂时挂了,网络突然不通了,爬出来有脏数据,有些网页需要填写验证码....总之,爬虫难点还是不少。
我重点是关心你所做的推荐系统,这属于机器学习算法技术。做推荐系统,你需要搞到用户评分和音乐标题,或者你还需要搞到有关该音乐的尽可能多的信息,比如专辑、标签、作者等。这些数据量很大,处理起来耗时耗力。所以我觉得你这个需求的难点在推荐,而不是爬虫。
用html和css的网易云音乐的登录是怎么做的?
首先,你要有一个前端页面的解释器,比如国内很好用的hBuilder,是需要下载的,然后是html,写出架构,使用css,我是学习的Windows程序开发,对于css不大精通,说实话,css还是有一定难度的,需要实战经验,但是css可以优化界面,最后需要csharp或者J***A等其他做架构来实现数据的登录
(图片来源网络,侵删)