文章詳情頁

python - 關(guān)于NumPy數(shù)組操作的問題

瀏覽：165日期：2022-06-26 18:57:18

問題描述

[’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]

numpy數(shù)組，總共有幾個萬個元素。現(xiàn)在想保留每個元素前面的編號000001之類的，并且去掉重復(fù)，只保留唯一的一個編號。結(jié)果應(yīng)該是[’000001’,’000002’,’000003’,’000004’]除了用for語句實現(xiàn)外，有沒有更高效的辦法？

問題解答

回答1：

寫個NumPy的吧~

python3

>>> import numpy as np>>> a = np.array([’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’])>>> b = np.unique(np.fromiter(map(lambda x:x.split(’_’)[0],a),’|S6’))>>> barray([b’000001’, b’000002’, b’000003’, b’000004’], dtype=’|S6’)

還可以這樣寫：np.frompyfunc’|S6’是以6個字節(jié)存儲字符串

’<U6’是以6個小端序Unicode字符存儲字符串

>>> b = np.array(np.unique(np.frompyfunc(lambda x:x[:6],1,1)(a)),dtype=’<U6’)>>> barray([’000001’, ’000002’, ’000003’, ’000004’], dtype=’<U6’)回答2：

綜合兩位仁兄的寫法@同意并接受 @xiaojieluoff

如果編號長度固定是前六位，最快的寫法下面第一種最快

import timelst = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000start = time.time()data = {_[:6] for _ in lst}print ’dic: {}’.format(time.time() - start)start = time.time()data = set(_[:6] for _ in lst)print ’set: {}’.format(time.time() - start)start = time.time()data = set(map(lambda _: _[:6], lst))print(’map：{}’.format(time.time() - start))start = time.time()data = set()[data.add(_[:6]) for _ in lst]print(’for：{}’.format(time.time() - start))耗時：dic: 0.72798705101set: 0.929664850235map：1.89214396477for：1.76194214821回答3：

使用 map 和匿名函數(shù)

lists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’,’000002_2017-03-21.csv’,’000002_2017-03-22.csv’,’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]data = list(set(map(lambda x:x.split(’_’)[0], lists)))print(data)

輸出：

[’000003’, ’000004’, ’000001’, ’000002’]

運行下面代碼可以看到，在 6百萬條數(shù)據(jù)下，map 比 for 快了 0.6s 左右

import timelists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000map_start = time.clock()map_data = list(set(map(lambda x:x.split(’_’)[0], lists)))map_end = (time.clock() - map_start)print(’map 運行時間：{}’.format(map_end))for_start = time.clock()data = set()for k in lists: data.add(k.split(’_’)[0])for_end = (time.clock() - for_start)print(’for 運行時間：{}’.format(for_end))

輸出：

map 運行時間：2.36173for 運行時間：2.9405870000000003

如果把測試數(shù)據(jù)擴大到 6千萬，差距就更明顯了

map 運行時間：29.620203for 運行時間：33.132621

Python 編程

上一條：python - pandas中mode()怎么使用?下一條：求大神解讀一段神級的Python代碼，謝謝！！

相關(guān)文章：

1. datetime - Python如何獲取當前時間2. python 利用subprocess庫調(diào)用mplayer時發(fā)生錯誤3. html - eclipse 標簽錯誤4. python - pycharm 自動刪除行尾空格5. 安全性測試 - nodejs中如何防m(xù)ySQL注入6. 請問PHPstudy中的數(shù)據(jù)庫如何創(chuàng)建索引7. python - Pycharm的Debug用不了8. javascript - 關(guān)于apply（）與call（）的問題9. javascript - nginx反向代理靜態(tài)資源403錯誤?10. python文檔怎么查看？

排行榜

					
					python - pycharm 自動刪除行尾空格
python 利用subprocess庫調(diào)用mplayer時發(fā)生錯誤
java - spring boot 如何打包成asp.net core 那種獨立應(yīng)用?
docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？
docker start -a dockername 老是卡住，什么情況？
docker網(wǎng)絡(luò)端口映射，沒有方便點的操作方法么？
docker綁定了nginx端口 外部訪問不到
angular.js - angular.ui：dropdown的下拉菜單關(guān)閉的偶爾失常問題
javascript - nginx反向代理靜態(tài)資源403錯誤?
html - eclipse 標簽錯誤
請問PHPstudy中的數(shù)據(jù)庫如何創(chuàng)建索引
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 關(guān)于NumPy數(shù)組操作的問題