求教,网易云音乐链接提取的动态是不是不能复制

最近心血来潮的我准备去爬爬網易云音乐()的评论,对于这个网站我在开始学习爬虫的时候也试过,但是当时没有坚持下去最后放弃了,现在为了工作项目的准備准备将这些网站慢慢的进行爬取,好了废话不多说。

我用了3天将评论爬取下来,暂时只是将其下载到我的磁盘上没有上传数据庫

1第一步我准备先将热门的歌手爬取下来,然后进入歌手的主页将歌曲爬取在接着爬取歌曲对应的评论,

刚开始我就用一般爬虫最基础嘚方法requests请求,结果请求下载的不是在网页上看到的东西我尝试着加上headers,结果还是一如既往的糟糕返回的一直一堆没有用的数据,(囿一个小问题我掉进了这个坑,就是网页链接中的#参考这篇博客)

然后我就更换了url,t去掉了#号后果然爬取出来的数据不一样了,数據中出现了几个歌手的名字但是我想要的热门歌手的名字却没有,我之后打开了控制台在里面进行找寻,最后发现了几个post请求的url通過抓包工具,fiddler我获取到了想要的url,但是这个请求中的两个参数却是加密的看下图

之后我通过百度,知道了这个是一种js的一种加密方式然后我准备按照js的加密方式,找到数据的加密参数模拟浏览器的post请求来实现我的目的。

在对歌手的主页进行爬取时发现并没有歌曲嘚数据post请求,然后就可以进行普通的方法对网页url进行拼接,发送resquests请求用xpath进行解析,或者美丽汤

以上的就是我这次爬取网易云遇到的坑,如果还有其他问题可以给我留言我一定尽心解答。

源代码的github地址:

}

我要回帖

更多关于 网易云音乐链接提取 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信