Python爬虫学习之获取指定网页源码

2021-04-03 我要评论

1、任务简介

前段时间一直在学习Python基础知识，故未更新博客，近段时间学习了一些关于爬虫的知识，我会分为多篇博客对所学知识进行更新，今天分享的是获取指定网页源码的方法，只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单，我在Java中使用了38行代码才获取了网页源码（大概是学艺不精），而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包，具体代码如下：

import urllib.request    #导入urllib.request库
b = str(input("请输入："))  #提示用户输入信息，并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下：

3、总结

这篇博客介绍的方法较为简单，其实有的网站会“反爬虫”，这时就需要我们使用User-Agent或者代理，这些东西都会在后面的博客中进行更新，我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识，由于刚开始学习爬虫，水平有限，请大家多多包涵。

您可能感兴趣的文章:

django-初始配置(纯手写)详解

猜您喜欢

04-03 docker-compose部署php项目实例详解
04-03 Django的性能优化实现解析
04-03 安装docker和docker-compose实例详解
04-03 安装docker-compose的两种最简方法
04-03 Python爬虫学习之翻译小程序
04-03 简单了解django orm中介模型
04-03 php layui实现前端多图上传实例
04-03 VMware虚拟机使用NAT模式上网的方法
04-03 python中append实例用法总结
04-03 python创建属于自己的单词词库便于背单词
04-03 Java程序开发环境配置图文教程
04-03 python实现windows倒计时锁屏功能
04-03 Hadoop-3.1.2完全分布式环境搭建过程图文详解（Windows 10）
04-03 简述vue-cli中chainWebpack如何使用
04-03 详解ssh框架原理及流程
04-03 Java实现弹窗效果的基本操作
04-03 详解springmvc常用5种注解
04-03 Java实现弹窗效果的基本操作（2）

Python爬虫学习之获取指定网页源码

您可能感兴趣的文章:

相关文章

猜您喜欢

今日热门