Python爬取重庆交通大学官网 - Yuyy

Yuyy

Yuyy发表在华硕主板灯光控制，Aura Sync 不显示设备2025年10月22日
建议卸载、重新安装试试，系统自带的有问题…
Yuyy发表在k8s node CPU 毛刺问题排查2025年10月22日
kv 存储集群，性能要求较高。
qaz发表在k8s node CPU 毛刺问题排查2025年10月20日
10%应该没有太大的影响吧，请问是什么业…
戚兰发表在华硕主板灯光控制，Aura Sync 不显示设备2025年10月20日
我是在黄色区域显示有设备，但是在华硕的灯…
Yuyy发表在Gitlab CI/CD 实践六：统一管理 protocol buffer，API 大仓设计与实现2025年7月31日
确实是个解决办法，不用 latest，用…

Python爬取重庆交通大学官网

992

|

0

|

Python

|

2019-4-22 9:06

|

2019-4-22 9:06

73 字

|

2 分钟

本文最后更新于 2580 天前，其中的信息可能已经有所发展或是发生改变。

爬取重庆交通大学官网首页的时政要闻，并提取信息，将时政要闻的时间、标题全部导出显示

代码

import requests
from urllib import request
from bs4 import BeautifulSoup
def main():
    url = "http://news.cqjtu.edu.cn/rss.htm"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
    page = request.Request(url, headers=headers)
    page_info = request.urlopen(page).read()
    soup = BeautifulSoup(page_info, 'html.parser')
    news_titles = soup.select("#ywDiv_0 a")
    news_titles.extend(soup.select("#JxDiv_0 a"))
    news_titles.extend(soup.select("#JDiv_0 a"))
    news_titles.extend(soup.select("#JKDiv_0 a"))
    print(type(news_titles))
    for news in news_titles:
        #print(news)
        title = news.get_text()
        link = news.get("href")
        data = {"title": title, "link": "http://news.cqjtu.edu.cn"+link}
        print(data)
main()

运行结果

Post Views: 992

作者：Yuyy
博客：https://yuyy.info

暂无评论

发送评论编辑评论

Markdown

邮件提醒

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!