当前位置:首页 > 编程笔记 > 正文
已解决

爬虫知识之BeautifulSoup库安装及简单介绍

来自网友在路上 158858提问 提问时间:2023-10-25 10:24:18阅读次数: 58

最佳答案 问答题库588位专家为你答疑解惑

一. 前言

        在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,其文章链接如下:

        其中核心代码如下:

# coding=utf-8  
import urllib  
import re  
  
#下载静态HTML网页  
url='http://www.csdn.net/'  
content = urllib.urlopen(url).read()  
open('csdn.html','w+').write(content)  
#获取标题  
title_pat=r'(?<=<title>).*?(?=</title>)'  
title_ex=re.compile(title_pat,re.M|re.S)  
title_obj=re.search(title_ex, content)  
title=title_obj.group()  
print title  
#获取超链接内容   
href = r'<a href=.*?>(.*?)</a>'  
m = re.findall(href,content,re.S|re.M)  
for text in m:  
    print unicode(text,'utf-8')  
    break #只输出一个url  
查看全文

99%的人还看了

猜你感兴趣

版权申明

本文"爬虫知识之BeautifulSoup库安装及简单介绍":http://eshow365.cn/6-24122-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!