本次选取的是某吧中的抗压背锅吧中的一篇帖子,帖子标题是“faker 你要毁了lpl么?”。爬取的目标是帖子里面的回复内容。
PYTHON代码如下:
import csv
import requests
import re
import time
def main(page):
url = f'https://tieba.baidu.com/p/8713988388?pn={page}'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
resp = requests.get(url, headers=headers)
html = resp.text
# 评论内容
comments = re.findall('style="display:;"> (.*?)</div>', html)
# 评论用户
users = re.findall('class="p_author_name j_user_card" href=".*?" target="_blank">(.*?)</a>', html)
# 评论时间
comment_times = re.findall('楼</span><span class="tail-info">(.*?)</span><div', html)
for u, c, t in zip(users, comments, comment_times):
# 筛选数据,过滤掉异常数据
if 'img' in c or 'div' in c or len(u) > 50:
continue
csvwriter.writerow((u, t, c))
print(u, t, c)
print(f'第{page}页爬取完毕')
if __name__ == '__main__':
with open('01.csv', 'a', encoding='utf-8') as f:
csvwriter = csv.writer(f)
csvwriter.writerow(('评论用户', '评论时间', '评论内容'))
for page in range(1, 8): # 爬取前7页的内容
main(page)
time.sleep(2)
爬取效果如下:
D:\study\venv\Scripts\python.exe D:\study\main.py
船只线饲mu 2023-11-12 19:56 ?疯掉啦
24小时都在想女人 2023-11-12 19:56 现在是幻想时间
第1页爬取完毕
KaspaStar 2023-11-12 19:58 ?
贴吧用户_5G3KU9P 2023-11-12 19:58 369团战比不过对线也打不过选的英雄还不会玩抽象
让我试试 2023-11-12 19:58 别指望我们四号种子,我们就是个混的,一号种子跟真实力二号种子都没打过。wbg走到现在已经血赚
灰先生😎 2023-11-12 20:01 t1挂机一个微博都赢不了
绝望的患者 2023-11-12 20:01 现在是幻想时间
何必强颜欢笑o0 2023-11-12 20:02 梦里啥都有
风不解风情 2023-11-12 20:03 灯神,带大伙登神吧
世事终无常 2023-11-12 20:03 好好好
第2页爬取完毕
贴吧用户_Q4WUSAE 2023-11-12 20:04 闹麻了。
s7的捆仙绳还给你 2023-11-12 20:04 现在是幻想时间
单车少年钱伯斯 2023-11-12 20:04 卡萨呢,不给卡萨混个皮肤?
幼儿园吃糖高手 2023-11-12 20:08 炸饺消音消画打胎嫖娼赌博假赛老赖铜牌赛区,跪下!
键盘战神 2023-11-12 20:10 太讽刺了,顶级晒黑的我要开始支持wbg了😭,晒哥五年前你给LPL带来了光明,这次,再拯救一次LPL吧😭
第3页爬取完毕
😶😑😐 2023-11-12 20:10 不是T1 3-0 WBG?
流汗且黄豆69 2023-11-12 20:12 怎么,你也有原神哥当辅助?
大吼并扑向 2023-11-12 20:12 意淫赛区配意淫粉丝,合理
贴贴哎 2023-11-12 20:12 恭喜wbg,第二个drx!!!
favoritejkgirl 2023-11-12 20:12 做梦是吧
贴贴哎 2023-11-12 20:12 第二个龙叉?!
Marisa038 2023-11-12 20:13 嚯嚯嚯,杂交队又开始YY了
Luccen- 2023-11-12 20:14 现在是,______
第4页爬取完毕
憨态老司机 2023-11-12 20:17 不被3:0就算成功
error 0 2023-11-12 20:18 经典提前开香槟
他想吃酱油炒饭 2023-11-12 20:19 牛
犬子星期天 2023-11-12 20:22 滚旦
深爱着我自己 2023-11-12 20:24 好好好,今天开始我也是js了,啃t1🧠,啃t1水晶,啃t1野区,我啃啃啃啃啃啃啃啃啃啃。
贴吧用户_Q6VP193 2023-11-12 20:24 6666
第5页爬取完毕
浮世英壽 2023-11-12 20:30 幽默
Minatozakii 2023-11-12 20:31 我突然释怀的笑
橘子sss 2023-11-12 20:36 啊?这是。。。
dailylife09 2023-11-12 20:37 寄咯
可爱的无双君王 2023-11-12 20:37 哈哈哈,好好好,顶级,乐死我了
第6页爬取完毕
只喝百事的可乐 2023-11-12 20:41 哥们喝大了,还是GSL串疯了?
还有高手. 2023-11-12 20:41 幽默
我才不爱saber 2023-11-12 20:41 现在是做梦环境
白天都不 2023-11-12 20:43 现在是幻想时间
Tl-Faker 2023-11-12 20:45 癔症了
第7页爬取完毕
Process finished with exit code 0
第一次进行这种大操作,感觉是真的烧脑。。。
但当自己真正完成的那一瞬间,内心便会得到极大满足~
最后私心提前庆祝FAKER四冠~