Python是目前非常受欢迎的编程语言之一。它具有简单易学、可扩展性强、适用范围广等优点,在数据分析、人工智能等领域都有广泛应用。下面介绍一个基于Python的综合案例——爬取豆瓣电影排行榜。
import requests import lxml.html url = 'https://movie.douban.com/chart' response = requests.get(url) html = lxml.html.fromstring(response.text) movies = html.xpath('//div[@class="pl2"]/a') for movie in movies: movie_name = movie.text.strip() movie_url = movie.attrib['href'] print(f'{movie_name} : {movie_url}')
如上代码通过requests库获取网页HTML内容,并使用lxml库解析HTML,最终获取了豆瓣电影排行榜上的所有电影名称和链接。其中xpath是一种常用的解析HTML的语法,可以方便地获取指定元素。
需要注意的是,这里通过xpath选取的是class为“pl2”的div标签中的a标签,而a标签中文本内容正好是需要的电影名称,链接则需要获取a标签的href属性,这些信息都可以使用Python代码方便地提取。
使用Python进行爬虫操作需要注意网站的反爬虫机制,以及遵守相关法律法规。如果您有相关需求,建议先了解相关知识再进行操作。
本文可能转载于网络公开资源,如果侵犯您的权益,请联系我们删除。
0