从零开始开发python和qt项目(二)



  • 项目的重要部分在于爬虫的书写,我找了一天的网站,想确定一个作为爬虫目标,新闻小说糗百,最后定了壁纸网站,反正是学习,这个无所谓啦。

    只所以有Spider2.py的存在,是因为Spider.py爬的是国外壁纸网站,慢的要死

    声明:本次爬取,只是学习,不要用这个恶意攻击网站,我不负责哦

    1.分析网站结构 http://www.netbian.com/index_2.htm

    我用的谷歌浏览器,F12,打开调试,
    翻几次下一页,比较连接地址,发现规律,
    第2页 /index_2.htm
    第3页 /index_3.htm

    0_1524059692791_TIM截图20180418215336.png

    2.爬取网页数据

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
        'Cookie': '__cfduid=d252e3981db5eb8f693b010f5dfd5ddd01524029979; _ga=GA1.2.1939131297.1524029968; _gid=GA1.2.1452726850.1524029968; wallhaven_session=eyJpdiI6Ik1NU0F1S1hBZGIzUWxQd083b05lMGdnKzBqbFwvaEZnNWx6aXBWczlydE5nPSIsInZhbHVlIjoiOG4rMGlVcHNsQ3ZIY3FDOXRncjR5VnF1RVwvak9WSmR4SzhKTms0TzdCQTFrXC9TZTFEQXBYbmlybnRHd2dyRDdvVmZUck9MSnFmdkprNmxONmVzUXpjZz09IiwibWFjIjoiMGZhOTYyYmViOGNlOGZiMjkyOTRkMWIxOThjYmE5MTFiMWJmODM4NTdjMjc0MjNiZGMzNWVkYmQ1NzRmNjI0OCJ9'
    }
    
    url = 'http://www.netbian.com/index_%s.htm' % str(currentPage)
    html = get_one_page(url, headers=headers)
    

    Cookie来自上面截图内容,get_one_page函数里用requests,get到网页数据
    访问网页的方式分get和post,put不常用
    get就是直接获取,如果传参是明文方式
    post传参是密文方式
    萌新知道这些就足够了

    0_1524059924801_TIM截图20180418215834.png

    3.得到网页全部数据后,还要从里面提取图片数据

    观察网页发现图片存在 【list】,这个下面

    0_1524060210665_225.png

    0_1524060186008_TIM截图20180418220253.png

    我用BeautifulSoup(如果没有lxml需要自己安装哦)解析了网页数据,提取list内容,然后用re正则筛选出这一页所有图片链接,一个链接如下

    http://img.netbian.com/file/2018/0413/8e97d70b7991a190f9f1c2be91c38da7.jpg
    

    4.有了图片链接,接下来就是下载图片

    0_1524060491629_TIM截图20180418220745.png

    所有缓存的缩略图我放在cache文件夹下

    0_1524060561738_TIM截图20180418220913.png

    未完待续



  • @青山白云 看了一下你使用爬虫爬图片的截图,感觉Python果然像大家说得挺好的,不像node.js,要爬一个网站还需要异步的方式才能实现,Python使用同步的方式get到网站内容,然后正则表达式解析,更加直观。🐱


Log in to reply
 

走马观花

最近的回复

  • C

    Qt for MCU需要商业授权的

    read more
  • Qt for MCUs

    搭建Qt for MCUs PC端开发环境。qt for mcus提供了一个完整的图形框架和工具包,包含了在MCUs上设计、开发和部署gui所需的一切。它允许您在裸机或实时操作系统上运行应用程序。

    先决条件

    开发主机环境支持仅限于Windows 10

    MSVC compiler v19.16 (Visual Studio 2017 15.9.9 or newer) x64

    CMake v3.13 or newer (you can install it using the Qt Online installer) x64

    使用Qt联机安装程序安装Qt for MCUs,该安装程序可通过Qt帐户下载

    安装Qt 5.14和Qt Creator 4.11 or higher

    安装链接

    › Qt: https://account.qt.io/downloads
    › CMake: https://cmake.org/download/
    › Python 2.7 32-bit: https://www.python.org/downloads/release/python-2716/
    › Arm GCC: https://developer.arm.com/tools-and-software/open-source-software/developer-tools/gnutoolchain/gnu-rm/downloads
    › J-Link Software Pack: https://www.segger.com/downloads/jlink/JLink_Windows.exe
    › J-Link OpenSDA Firmware: https://www.segger.com/downloads/jlink/OpenSDA_MIMXRT1050-EVKHyperflash
    › STM32CubeProgrammer: https://www.st.com/en/development-tools/stm32cubeprog.html
    › STM32 ST-LINK Utility: https://www.st.com/en/development-tools/stsw-link004.html​​​​​​​

    Qt Creator设置 启用Qt Creator插件 选择“帮助>关于插件”,然后从列表中选择“MCU支持(实验性)”插件,重新启动Qt Creator以应用更改
    替代文字 为MCU创建Qt工具包

    选择工具>选项>设备>MCU

    选择Qt for MCUs-Desktop 32bpp作为目标

    如果尚未设置,请提供Qt for MCUs安装目录的路径。

    单击Apply应用。

    替代文字

    替代文字
    替代文字

    注意:

    编译器要选X64,Qt版本要选64bit,CMake Tool选x64

    打开恒温器项目demo

    选择文件>打开文件或项目。。。

    打开CMakefiles.txt文件来自thermo文件夹的文件。

    选择Qt作为MCU-桌面32bpp套件。

    单击“配置项目”以完成。

    替代文字

    问题

    开发主机环境支持仅限于Windows 10

    C++编译失败,文本大字体.pixelSize.

    文本类型无法正确呈现需要复杂文本布局的unicode序列。对复杂文本使用StaticText

    read more
  • H

    hi 有问题请教你,方便加个联系方式吗

    read more
  • boost.asio是一个很棒的网络库,这回儿我也开始系统地学习起来了。想想当年接触boost,也有八年多了。这次开始接触boost,觉得既熟悉又陌生。熟悉的是小写字母+下划线的命名方式、晦涩的模板、很慢的编译速度以及较大的程序体积,陌生的是asio的各种概念:io服务、接收器、套接字等等:我之前对网络编程不是非常了解。

    于是根据我的理解,参考《Boost.Asio C++网络编程》实现了这样一个简单的客户端和服务端通信的例子,例子非常简单,还不完善,但是幸运的是,可以在本机上互通了。
    下面是客户端的代码:

    #include <iostream> #include <boost/asio.hpp> #include <boost/proto/detail/ignore_unused.hpp> using namespace std; using namespace boost::asio; using namespace boost::system; using namespace boost::proto::detail;// 提供ignore_unused方法 void writeHandler( const boost::system::error_code& ec, size_t bytesTransferred ) { if ( ec ) { cout << "Write data error, code: " << ec.value( ) << "transferred: " << bytesTransferred << endl; } else { cout << "OK! " << bytesTransferred << "bytes written. " << endl; } } int main(int argc, char *argv[]) { ignore_unused( argc ); ignore_unused( argv ); io_service service; ip::tcp::socket sock( service ); ip::tcp::endpoint ep( ip::address::from_string( "127.0.0.1" ), 6545 ); boost::system::error_code ec; sock.connect( ep, ec ); if ( ec ) { cout << "Connect error, code: " << ec.value( ) << ", We will exit." << endl; return ec.value( ); } else { char buf[1024] = "Hello world!"; sock.async_write_some( buffer( buf ), writeHandler ); sock.close( ); } return service.run( ); }

    下面是服务端的代码:

    #include <iostream> #include <boost/asio.hpp> #include <boost/proto/detail/ignore_unused.hpp> using namespace std; using namespace boost::asio; using namespace boost::system; using namespace boost::proto::detail;// 提供ignore_unused方法 void acceptHandle( const boost::system::error_code& code ) { cout << "Accepted." << endl; } int main(int argc, char *argv[]) { ignore_unused( argc ); ignore_unused( argv ); io_service service; ip::tcp::endpoint ep( ip::address::from_string( "127.0.0.1" ), 6545 ); boost::system::error_code ec; ip::tcp::socket sock( service ); ip::tcp::acceptor acceptor( service, ep ); acceptor.async_accept( sock, acceptHandle ); if ( ec ) { cout << "There is an error in server. code: " << ec.value( ) << endl; } return service.run( );// 阻塞运行 }

    运行结果是这样的:
    78448d7b-b3ae-42fc-9e2e-4dd2fbdac2c2-image.png

    我对boost.asio中几个概念的理解:

    io_service,这就是一个类似事件循环的东西,它为io设备提供服务,故名。不管是套接字、文件还是串口设备,都要使用它的服务。它的run()函数相当于启动了一个事件循环。一旦有消息了,即进行响应。这也是实现异步编程的重要基础。 socket,这个类则是套接字,可以处理TCP或者是UDP请求。有同步以及异步的处理方式,也有带异常以及不带异常的处理方式。 acceptor,接收器,仅仅是服务端使用。相当于其余框架中的listener,作接收用的。

    比较浅显,如果有不当之处,敬请指正。

    read more

关注我们

微博
QQ群