超碰人人爱人人草人人干,婷婷视频在线观看

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

Python中三個不常見但是非常有用的數(shù)據(jù)科學(xué)庫

介紹

如果你從事數(shù)據(jù)科學(xué)研究有一段時間了，那么pandas, scikit-learn seaborn和matplotlib這些庫你都應(yīng)該非常的熟悉。

為怒江州等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù)，及怒江州網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站制作、做網(wǎng)站、怒江州網(wǎng)站設(shè)計(jì)，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求，就會得到認(rèn)可，從而選擇與我們長期合作。這樣，我們也可以走得更遠(yuǎn)！

如果您想要擴(kuò)展您的視野，學(xué)習(xí)一些更少見但同樣有用的庫。在本文中，我將向您展示一些不太為人所知的但是卻非常好用的python庫。

imbalanced-learn

如果你過去一直在構(gòu)建一些有監(jiān)督的機(jī)器學(xué)習(xí)模型，你就會知道目標(biāo)變量中的類別不平衡可能是一個大問題。這是因?yàn)樵谏贁?shù)類中沒有足夠的例子來讓算法學(xué)習(xí)模式。

一個解決方案是創(chuàng)建一些合成樣本，通過使用例如SMOTE(合成少數(shù)群體過采樣技術(shù))來增加少數(shù)群體類的學(xué)習(xí)。

幸運(yùn)的是，imbalance-learn庫將幫助您在任何不平衡數(shù)據(jù)集上實(shí)現(xiàn)這一技術(shù)。

您可以通過在終端上執(zhí)行以下命令來安裝imbalance-learn庫。

 
 
 
   
  
  
  pip install imbalanced-learn

為了演示如何平衡數(shù)據(jù)集，我們將使用sklearn下載乳腺癌數(shù)據(jù)集。

 
 
 
   
  
  
  from sklearn.datasets import load_breast_cancer   
  
  
  import pandas as pddata = load_breast_cancer()   
  
  
  df = pd.DataFrame(data.data, columns=[data.feature_names])   
  
  
  df[‘target’] = data[‘target’]   
  
  
  df.head()

下面看目標(biāo)變量的分布。

 
 
 
   
  
  
  df.target.value_counts()

數(shù)據(jù)集確實(shí)是均勻分布的，盡管它不是非常不平衡:我們有357名乳腺癌患者和212名健康患者。

我們看看能不能讓它更平衡一點(diǎn)。我們將使用SMOTE對0類進(jìn)行過采樣。

 
 
 
   
  
  
  from imblearn.over_sampling import SMOTE   
  
  
  oversample = SMOTE()   
  
  
  X_oversample, y_oversample = oversample.fit_resample(data.data, data.target)   
  
  
  pd.Series(y_oversample).value_counts()

如你所見，數(shù)據(jù)集現(xiàn)在已經(jīng)完全平衡了。每個類有357個實(shí)例。作為我們操作的結(jié)果，創(chuàng)建了145個人工實(shí)例。

statsmodels

這是另一個很棒的庫，專門用來建立統(tǒng)計(jì)模型。我通常用它來擬合線性回歸

它真的很容易使用，你可以馬上得到很多關(guān)于模型的信息，比如R2 BIC、AIC、置信度和它們相應(yīng)的p值。當(dāng)使用scikit-learn的線性回歸時，這些信息更難以獲取。

讓我們看看如何使用這個庫來適應(yīng)線性回歸模型。讓我們先下載一個波士頓房價數(shù)據(jù)集。

 
 
 
   
  
  
  from sklearn.datasets import load_boston   
  
  
  import pandas as pd   
  
  
  data = load_boston()   
  
  
  df = pd.DataFrame(data.data, columns=[data.feature_names])   
  
  
  df[‘target’] = data[‘target’]   
  
  
  df.head()

上面是我們的數(shù)據(jù)集的前五行。有13個特征，我們可以看到一個目標(biāo)變量是一個連續(xù)的數(shù)字。這是一個完美的回歸數(shù)據(jù)集。

現(xiàn)在讓我們使用pip安裝統(tǒng)計(jì)模型庫

 
 
 
   
  
  
  pip install statsmodels

現(xiàn)在，我們可以使用以下代碼嘗試將線性回歸模型與我們的數(shù)據(jù)相匹配。

 
 
 
   
  
  
  import statsmodels.api as sm   
  
  
  X = sm.add_constant(df.drop(columns=[‘target’])) # adding a constant   
  
  
  model = sm.OLS(df.target, X).fit()   
  
  
  predictions = model.predict(X)   
  
  
  print_model = model.summary()   
  
  
  print(print_model)

我們剛剛將一個線性回歸模型擬合到這個數(shù)據(jù)集上，并打印出了該模型的詳細(xì)摘要。您可以很容易地閱讀所有重要信息，在必要時重新調(diào)整功能，并重新運(yùn)行模型。

我發(fā)現(xiàn)與scikit-learn版本相比，使用statsmodels進(jìn)行回歸更容易，因?yàn)槲倚枰乃行畔⒍荚谶@個簡短的報(bào)告中。

missingno

missingno是另一個有用的庫。它可以幫助您可視化缺失值的分布。

您可能已經(jīng)習(xí)慣使用isnull()函數(shù)檢查pandas中的缺失值。這可以幫助您獲取每列缺失值的數(shù)量，但不能幫助您確定它們的位置。這正是missingo變得有用的時候。

你可以使用下面的命令安裝庫:

 
 
 
   
  
  
  pip install missingno

現(xiàn)在，讓我們演示如何使用missingo來可視化缺失的數(shù)據(jù)。為了做到這一點(diǎn)，我們將從Kaggle下載預(yù)期壽命數(shù)據(jù)集。

然后可以使用read_csv()函數(shù)加載數(shù)據(jù)集，然后從missingno庫調(diào)用matrix()函數(shù)。

 
 
 
   
  
  
  import pandas as pd   
  
  
  import missingno as msno   
  
  
  df = pd.read_csv(‘Life Expectancy Data.csv’)   
  
  
  msno.matrix(df)

可以看到缺失值的位置。如果懷疑丟失的值位于某個特定位置或遵循某個特定模式，那么它將非常有用。

總結(jié)

以上三個庫非常的有用，通過使用它們可以簡化我們的操作，提高我們的工作效率。

當(dāng)前文章：Python中三個不常見但是非常有用的數(shù)據(jù)科學(xué)庫
網(wǎng)頁網(wǎng)址：http://m.5511xx.com/article/ccspihh.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

介紹

imbalanced-learn

statsmodels

missingno

總結(jié)

其他資訊