Track 正式学员

yuyalinnb

1关注
4粉丝
9文章
返回网站首页

您已发布 9篇文章作品写文章

爬虫之scrapy基础

[TOC]#CTL{\n}#0x01 安装和简介#CTL{\n}Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架。#CTL{\n}原理图:#CTL{\n}#CTL{\n}![](https://nc0.cdn.zkaq.cn/md/14311/516acbd73cc899e59753d97a0065ac2a_95524.png)#CTL{\n}简单来说,先去spider

 2022-11-24
 0 
 807 

爬虫之多进程

0x01 下载多进程包0x02 Process类说明0x03 简用0x04 获取进程编号0x05 进程执行带有参数的任务0x06 进程注意事项0x07 主进程等待所有子进程结束在结束0x01 下载多进程包pip3 install multiprocessing0x02 Process类说明multiprocessing.Process(group=None, target=None, name=N

 2022-11-20
 0 
 342 

爬虫之js基础(一)

[TOC]0x01 Javascript基础1.Javascript是什么?怎么用?为什么要学习js?因为爬虫逆向要用到(据说这里卡掉了%90学爬虫的)js是运行在浏览器端的语言,用来负责网页和用户的交互功能,比如说微博下拉刷新就是用的js。想必大家都知道xss,这是一个利用js语言的漏洞,而其中一条poc是这样的:alert(888)这个在js里叫做行内式,主要用于事件,之前还有一个onst

 2022-11-19
 0 
 486 

爬虫进阶之社区实战

[TOC]#CTL{\n}#0x01 前言#CTL{\n}阅读时间:4分钟左右#CTL{\n}众所周知,社区几乎没有反爬策略,于是我们可以轻松地开发一个爬虫。#CTL{\n}(脚本,采集的数据放到了最后)#CTL{\n}#0x02 编写#CTL{\n}##1.确定非置顶帖子名字的xpath#CTL{\n}首先,在登录状态下进入社区https://bbs.zkaq.cn/#CTL{\n}#CTL{\

 2022-11-13
 0 
 531 

爬虫进阶之验证码

[TOC]#CTL{\n}#CTL{\n}#0x01 验证码#CTL{\n}##1、图片验证码#CTL{\n}###1.1 什么是图片验证码?#CTL{\n}阅读时间:三分中#CTL{\n}验证码,CAPTCHA(全自动区分计算机和人类的图灵测试),就是看你是人还是脚本。#CTL{\n}###1.2 验证码的作用?#CTL{\n}防止恶意破解密码,论坛灌水,刷票,有效防止暴力测试#CTL{\n}#

 2022-11-12
 1 
 515 

爬虫之反爬思路与解决手段

[TOC]#CTL{\n}#0x00 前言#CTL{\n}阅读时间建议:4分钟#CTL{\n}本篇概念比较多,嗯。。#CTL{\n}#0x01 反爬思路与解决手段#CTL{\n}##1、服务器反爬虫的原因#CTL{\n}因为爬虫的访问次数高,浪费资源,公司资源被批量抓走,丧失竞争力,同时也是#CTL{\n}法律的灰色地带。#CTL{\n}#CTL{\n}##2、服务器反什么爬虫#CTL{\n}三月

 2022-11-12
 0 
 446 

爬虫之深入了解requests库

[TOC]#CTL{\n}#0x00 前言#CTL{\n}阅读时间:15分钟左右#CTL{\n}上一期讲了requests库的简单使用,这一期我会讲解requests库的更多实用的方法。#CTL{\n}小知识点:#CTL{\n}网站可以爬或不可以爬的东西会写在robots.txt里。比如:#CTL{\n}#CTL{\n}![](https://nc0.cdn.zkaq.cn/md/14311/57

 2022-11-8
 0 
 550 

爬虫之入门爬虫

0x00 前言学爬虫需要对基础语法了解,不然学起来会很痛苦(真的)。0x01 介绍爬虫就是用来爬取网站app数据和资源的脚本,一般用python写,用别的语言写不是不行,而是不方便,python里有很多强大的库来完成爬虫。0x02 爬虫流程模拟浏览器发送请求-》获取响应对象-》提取数据-》保存数据请求库:requests selenium解析库:xpath(最常用最高效最简单) beauti

 2022-11-7
 0 
 520 

一个简单的社区爬虫(爬取加解析)

##0x00 前言#CTL{\n}![](https://nc0.cdn.zkaq.cn/md/14311/0b329eb594057e7a77c46e3afd044105_32768.png)#CTL{\n}看到社区这么多的面板,不由想到了最近学的一点皮毛,不如拿社区练练手,毕竟社区不怎么反爬虫,User-Agent都不用写,我就是想把这个问题反馈啊什么的爬取下来(后面会考虑出零基础到分布式的那

 2022-11-6
 3 
 692