博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
WechatScraper ——基于搜狗搜索的微信公众号爬虫
阅读量:5792 次
发布时间:2019-06-18

本文共 559 字,大约阅读时间需要 1 分钟。

最近公司有这方面需求,在网上找了一些爬虫,使用了一段时间之后发现很多没解决验证码和cookie这两个很头疼的问题。

于是想到了PhantomJS和webdriver,Headless浏览器,虽然PhantomJS看不到显示界面,但其实就是在一个浏览器内核中运行,这免去了很多麻烦事。

最初试了Firefox,验证码出现的几率几乎降到了0,文章列表基本上跟真浏览器访问无差,后来移植到centos上,但因为centos上装firefox还是比较麻烦,于是改用了PhantomJS,但测试发现PhantomJS的抓取效果很一般,经常关键词抓错,暂时不知道原因,但效果类似于将中文字符去掉,英文关键词抓取是没有问题的,还望有经验的人士解答。

本着方便的原则,简单封装了几个操作MySQL方法,可以直接将数据存到MySQL里面,sql文件夹下面的两个文件分别是文章和公众号的表格创建文件,连接MySQL之后直接输入source,然后把文件拖到命令行就行了。

配置文件可以自己修改,也可以自己在创建实例的时候输入config。

暂时使用的PhantomJS,需要安装不少东西,有时间写个安装教程。

main.py是测试文件,里面写了两个测试用例,可以在安装好东西之后运行一下。

项目地址是,欢迎提issue,fork和star。

转载地址:http://yhwfx.baihongyu.com/

你可能感兴趣的文章
使用TestFlight邀请外部人员測试APP
查看>>
hdu5389 Zero Escape
查看>>
探寻不同版本号的SDK对iOS程序的影响
查看>>
U10783 名字被和谐了
查看>>
SEO优化:WordPress站点地图(html和xml)插件Baidu Sitemap Generator
查看>>
汉字搜集一二三级
查看>>
Javascript MVC 学习笔记(一) 模型和数据
查看>>
HyperLedger Fabric ChainCode开发——shim.ChaincodeStubInterface用法
查看>>
matlab矩阵内存预分配
查看>>
打造IE6的position:fixed整理篇
查看>>
C++tinyXML使用
查看>>
IIS 支持 m3u8
查看>>
Spark Mllib里使用贝氏二元分类时如何将数值特征字段用StandardScaler进行标准化(图文详解)...
查看>>
spring 拦截器整体配置
查看>>
机器学习(Machine Learning)&深度学习(Deep Learning)资料
查看>>
dp的刷表法和填表法
查看>>
springcloud(四):熔断器Hystrix
查看>>
+1.1向量 链表 数组
查看>>
牛客网Java刷题知识点之构造函数与set方法、与类名同名的一般方法、构造函数中有return语句...
查看>>
OAF系统更新默认LOGO图标和主页环境描述
查看>>