av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術文章
文章詳情頁

python - 關于代碼的優化問題

瀏覽:159日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網站下來的,和網頁另存為沒什么區別。

想大神們幫我看看我的代碼,怎么優化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 亚洲激情视频在线 | 久久久91精品国产一区二区三区 | 三级av在线| 中文字幕成人网 | 青青草av在线播放 | 精品欧美在线观看 | 不卡一区| 日本不卡免费新一二三区 | 91精品久久久久久久久久入口 | 91视频大全 | www.99热.com| 97人人超碰| 久久人人网 | 久久91精品 | 日本午夜精品一区二区三区 | a在线视频观看 | 欧美精品一区二区免费视频 | 91pao对白在线播放 | 一级黄在线观看 | 成人欧美一区二区三区黑人孕妇 | 性生生活大片免费看视频 | 国产精品久久久久久久久久免费看 | 欧美不卡视频 | 欧美精| 一级做a爰片性色毛片视频停止 | 国产粉嫩尤物极品99综合精品 | 一区二区三区亚洲视频 | 亚洲精选一区二区 | 国产一级电影在线观看 | 欧美日韩中文国产一区发布 | 一二三四在线视频观看社区 | 亚洲国产精品99久久久久久久久 | 久久国产一区二区三区 | 色婷婷综合久久久中字幕精品久久 | 91精品久久久久久综合五月天 | 国产精品观看 | 欧美一级二级视频 | 午夜免费电影 | 97超碰在线播放 | 国产成人精品一区二三区在线观看 | 国产精品日本一区二区不卡视频 |