从零开始开发python和qt项目(二)



  • 项目的重要部分在于爬虫的书写,我找了一天的网站,想确定一个作为爬虫目标,新闻小说糗百,最后定了壁纸网站,反正是学习,这个无所谓啦。

    只所以有Spider2.py的存在,是因为Spider.py爬的是国外壁纸网站,慢的要死

    声明:本次爬取,只是学习,不要用这个恶意攻击网站,我不负责哦

    1.分析网站结构 http://www.netbian.com/index_2.htm

    我用的谷歌浏览器,F12,打开调试,
    翻几次下一页,比较连接地址,发现规律,
    第2页 /index_2.htm
    第3页 /index_3.htm

    0_1524059692791_TIM截图20180418215336.png

    2.爬取网页数据

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
        'Cookie': '__cfduid=d252e3981db5eb8f693b010f5dfd5ddd01524029979; _ga=GA1.2.1939131297.1524029968; _gid=GA1.2.1452726850.1524029968; wallhaven_session=eyJpdiI6Ik1NU0F1S1hBZGIzUWxQd083b05lMGdnKzBqbFwvaEZnNWx6aXBWczlydE5nPSIsInZhbHVlIjoiOG4rMGlVcHNsQ3ZIY3FDOXRncjR5VnF1RVwvak9WSmR4SzhKTms0TzdCQTFrXC9TZTFEQXBYbmlybnRHd2dyRDdvVmZUck9MSnFmdkprNmxONmVzUXpjZz09IiwibWFjIjoiMGZhOTYyYmViOGNlOGZiMjkyOTRkMWIxOThjYmE5MTFiMWJmODM4NTdjMjc0MjNiZGMzNWVkYmQ1NzRmNjI0OCJ9'
    }
    
    url = 'http://www.netbian.com/index_%s.htm' % str(currentPage)
    html = get_one_page(url, headers=headers)
    

    Cookie来自上面截图内容,get_one_page函数里用requests,get到网页数据
    访问网页的方式分get和post,put不常用
    get就是直接获取,如果传参是明文方式
    post传参是密文方式
    萌新知道这些就足够了

    0_1524059924801_TIM截图20180418215834.png

    3.得到网页全部数据后,还要从里面提取图片数据

    观察网页发现图片存在 【list】,这个下面

    0_1524060210665_225.png

    0_1524060186008_TIM截图20180418220253.png

    我用BeautifulSoup(如果没有lxml需要自己安装哦)解析了网页数据,提取list内容,然后用re正则筛选出这一页所有图片链接,一个链接如下

    http://img.netbian.com/file/2018/0413/8e97d70b7991a190f9f1c2be91c38da7.jpg
    

    4.有了图片链接,接下来就是下载图片

    0_1524060491629_TIM截图20180418220745.png

    所有缓存的缩略图我放在cache文件夹下

    0_1524060561738_TIM截图20180418220913.png

    未完待续



  • @青山白云 看了一下你使用爬虫爬图片的截图,感觉Python果然像大家说得挺好的,不像node.js,要爬一个网站还需要异步的方式才能实现,Python使用同步的方式get到网站内容,然后正则表达式解析,更加直观。🐱


 

走马观花

最近的回复

  • @chinasmu Webkit网络的部分可能不是受到Qt控制的,扩展性较差,所以呢,还不能通过代码的方式侦听网络收发数据。但是WebEngine就可以。如果可以的话,试试Qt WebEngine。😺

    阅读更多
  • C

    我用qt建了个对话框程序,里面加了个webkit,请问有办法获取该控件的全部网络封包通信数据吗?
    不采用windows hook recv和send函数的形式,或者有没有第三方的控件可以这样做

    阅读更多
  • 这个错误不是编译器的错误,而是IntelliSense的错误。
    这种情况,可以不用太担心。

    如果你使用MSVC编译应用程序,那么最好安装Qt Visual Studio Addon,使用这个插件同步开发Qt应用程序。
    不过一个小小的建议,就是Qt Creator写Qt程序非常直观,不需要在Visual Studio中那么麻烦,而且Qt Creator是强制安装的,基本上你安装了Qt 5.12,就可以在安装的目录中找到它。QAxContainer是Qt的模块activeQt中的,需要在pro文件中写QT += axcontainer,才会找到这个类。

    阅读更多
  • C

    VS2017 Qt5.12
    新建一个空的QWidget对话框,编译执行
    可以成功生成并执行,但是错误列表里显示

    傲游截图20190217212931.png

    exe文件能够成功生成。

    另外的问题:我在vs2017编译环境中使用qt,需要用到 QAxContainer,我看帮助文档里说要在.pro中加入CONFIG+=qaxcontainer,但是vs2017创建的程序中没有.pro这个文件,那这句话应该加在哪里呢?

    还有我想建一个有浏览器控件的对话框程序,如果想在5.12版本中加入QtWebKit应该如何使用

    阅读更多

关注我们

微博
QQ群











召唤伊斯特瓦尔