新聞中心
解決方法

為巴彥淖爾等地區(qū)用戶(hù)提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及巴彥淖爾網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為網(wǎng)站建設(shè)、成都做網(wǎng)站、巴彥淖爾網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專(zhuān)業(yè)、用心的態(tài)度為用戶(hù)提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶(hù)的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!
1、忽視元組。
缺少類(lèi)別標(biāo)簽時(shí),通常這樣做(假設(shè)挖掘任務(wù)與分類(lèi)有關(guān)),除非元組有多個(gè)屬性缺失值,否則該方法不太有效。當(dāng)個(gè)屬性缺值的百分比變化很大時(shí),其性能特別差。
2、人工填寫(xiě)缺失值。
一般來(lái)說(shuō),這種方法需要很長(zhǎng)時(shí)間,當(dāng)數(shù)據(jù)集大且缺少很多值時(shí),這種方法可能無(wú)法實(shí)現(xiàn)。
3、使用全局常量填充缺失值。
將缺失的屬性值用同一常數(shù)(如Unknown或負(fù))替換。如果缺失值都是用unknown替換的話,挖掘程序可能會(huì)認(rèn)為形成有趣的概念。因?yàn)橛型瑯拥膬r(jià)值unknown。因此,這種方法很簡(jiǎn)單,但不可靠。
4、使用與給定元組相同類(lèi)型的所有樣本的屬性平均值。
5、使用最可能的值填充缺失值。
可以通過(guò)回歸、使用貝葉斯形式化的基于推理的工具和決策樹(shù)的總結(jié)來(lái)決定。
實(shí)例
import numpy as np from sklearn.preprocessing import Imputer imp = Imputer(missing_values='NaN', strategy='mean', axis=0) import numpy as np from sklearn.preprocessing import Imputer ###1.使用均值填充缺失值 imp = Imputer(missing_values='NaN', strategy='mean', axis=0) imp.fit([[1, 2], [np.nan, 3], [7, 6]]) X = [[np.nan, 2], [6, np.nan], [7, 6]] print(imp.transform(X)) [[4. 2. ] [6. 3.66666667] [7. 6. ]]
以上就是python缺失值的解決方法,希望對(duì)大家有所幫助。更多Python學(xué)習(xí)指路:創(chuàng)新互聯(lián)Python教程
本文教程操作環(huán)境:windows7系統(tǒng)、Python 3.9.1,DELL G3電腦。
網(wǎng)頁(yè)標(biāo)題:創(chuàng)新互聯(lián)Python教程:python缺失值的解決方法
轉(zhuǎn)載注明:http://m.5511xx.com/article/cdopsjs.html


咨詢(xún)
建站咨詢(xún)
