日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
如何在Python中加入多個(gè)數(shù)據(jù)幀?

初學(xué)Python編程的人,面臨的是各種未知的挑戰(zhàn)。

下面是一個(gè)幾乎讓所有更有抱負(fù)的數(shù)據(jù)科學(xué)家都感到意外的場景:

你正在處理一個(gè)從多個(gè)源收集數(shù)據(jù)的項(xiàng)目。在進(jìn)入探索和模型構(gòu)建部分之前,你需要首先連接這些多個(gè)數(shù)據(jù)集(以表、數(shù)據(jù)幀等形式)。怎么能做到這一點(diǎn)而不丟失任何信息?

這聽起來可能是一個(gè)簡單的場景,但對于許多新來的人來說,這可能是一個(gè)威脅,特別是那些不熟悉Python編程的人。

進(jìn)一步深入研究,我可以大致將其分為兩種情況:

  • 首先,具有相似屬性的數(shù)據(jù)可以分布到多個(gè)文件中。例如,假設(shè)向你提供了多個(gè)文件,每個(gè)文件都存儲一年中某一周內(nèi)發(fā)生的銷售信息。因此,全年將有52個(gè)文件。每個(gè)文件的列數(shù)和名稱都相同。
  • 其次,你可能需要合并來自多個(gè)來源的信息。例如,假設(shè)你想獲得購買產(chǎn)品的人的聯(lián)系信息。這里有兩個(gè)文件,第一個(gè)有銷售信息,第二個(gè)有客戶信息。

理解手頭的問題

本文列舉一個(gè)通俗易懂的例子。

想一下在一個(gè)特定的學(xué)校里考試。每個(gè)科目都有不同的老師授課。他們更新關(guān)于學(xué)生成績和整體表現(xiàn)的檔案。這些檔案就是多個(gè)文件!

本文使用創(chuàng)建的兩個(gè)這樣的文件來演示Python中函數(shù)的工作。第一個(gè)文件包含關(guān)于12班學(xué)生的數(shù)據(jù),另一個(gè)文件包含10班的數(shù)據(jù)。還將使用第三個(gè)文件來存儲學(xué)生的姓名和學(xué)生ID。

注意:雖然這些數(shù)據(jù)集是從零開始創(chuàng)建的,但鼓勵(lì)將所學(xué)應(yīng)用于選擇的數(shù)據(jù)集。

在Python中逐步合并數(shù)據(jù)幀的過程

下面是解決這個(gè)問題的方法:

  • 用Python加載數(shù)據(jù)集
  • 合并兩個(gè)相似的數(shù)據(jù)幀(append)
  • 合并來自兩個(gè)數(shù)據(jù)幀的信息(merge)

步驟1:用Python加載數(shù)據(jù)集

本文將使用三個(gè)獨(dú)立的數(shù)據(jù)集。首先,將這些文件加載到單獨(dú)的數(shù)據(jù)幀中。

 
 
 
  1. import pandas as pd 
 
 
 
  1. marks10th=pd.read_csv('10thClassMarks.csv') 
 
 
 
  1. marks12th=pd.read_csv('12thClassMarks.csv') 
 
 
 
  1. IDandName=pd.read_csv('StudentIDandName.csv') 

前兩個(gè)數(shù)據(jù)框包含學(xué)生的百分比及其學(xué)生ID。在第一個(gè)數(shù)據(jù)框中,有10班學(xué)生的分?jǐn)?shù),而第二個(gè)數(shù)據(jù)框包含第12個(gè)標(biāo)準(zhǔn)中學(xué)生的分?jǐn)?shù)。第三個(gè)數(shù)據(jù)框包含學(xué)生的姓名以及各自的學(xué)生ID。

來源:btime

使用“head”函數(shù)檢查每個(gè)數(shù)據(jù)幀的前幾行:

 
 
 
  1. marks10th.head() 
 
 
 
  1. marks12th.head() 
 
 
 
  1. IDandName.head() 

步驟2:合并兩個(gè)相似的數(shù)據(jù)幀(Append)

把10、12班的檔案合并起來,找出學(xué)生的平均分。這里使用Pandas庫中的“append”函數(shù):

 
 
 
  1. allMarks=marks10th.append(marks12th) 
 
 
 
  1. marks10th.shape, marks12th.shape, allMarks.shape 

輸出((50,3),(50,3),(100,3))

從輸出中可以看到,在append函數(shù)中垂直添加兩個(gè)數(shù)據(jù)幀。

結(jié)果數(shù)據(jù)幀是allMarks。上面比較了所有三個(gè)數(shù)據(jù)幀的形狀。

接下來看看“allMarks”的內(nèi)容并計(jì)算平均值:

 
 
 
  1. allMarks['Exam Points'].mean() #Average Marks 

輸出:49.74

步驟3:合并來自兩個(gè)數(shù)據(jù)幀的信息(Merge)

現(xiàn)在,假設(shè)想找出在這兩個(gè)批次中排名第一的學(xué)生的名字。這里不需要垂直添加數(shù)據(jù)幀。為了給學(xué)生的名字再加一列,我們將不得不水平縮放。

要做到這一點(diǎn),我們會發(fā)現(xiàn)最高得分:

 
 
 
  1. allMarks['Exam Points'].max() # Maximum Marks 

輸出:100

學(xué)生的最高成績是100分?,F(xiàn)在,使用“merge”函數(shù)查找此學(xué)生的姓名:

 
 
 
  1. mergedData=allMarks.merge(IDandName, on='student id') 
 
 
 
  1. mergedData.head() 

最后,生成的數(shù)據(jù)框有學(xué)生的名字和他們的標(biāo)記。

merge函數(shù)需要一個(gè)必要的屬性,兩個(gè)數(shù)據(jù)幀將在該屬性上合并。需要傳遞此列的名稱在“on”參數(shù)中。

merge函數(shù)的另一個(gè)重要論點(diǎn)是“如何”。這指定要在數(shù)據(jù)幀上執(zhí)行的聯(lián)接類型。以下是可以執(zhí)行的不同連接類型(SQL用戶將非常熟悉這一點(diǎn)):

  • 內(nèi)部連接(如果不提供任何參數(shù),則默認(rèn)執(zhí)行)
  • 外部連接
  • 右連接
  • 左連接

還可以使用“sort”參數(shù)對數(shù)據(jù)幀進(jìn)行排序。這些是合并兩個(gè)數(shù)據(jù)幀時(shí)最常用的參數(shù)。

來源:Pexels

現(xiàn)在,我們將看到數(shù)據(jù)框包含100個(gè)“檢查點(diǎn)”的行:

 
 
 
  1. mergedData.loc[mergedData['Exam Points']==100] 

三個(gè)學(xué)生得了100分,其中兩個(gè)在10班。做得好!

接下來,我的建議是接受包含3個(gè)不同文件的食物預(yù)測挑戰(zhàn)。

很直截了當(dāng),對吧?

你再也不必為此而自責(zé)了!你可以繼續(xù)并將其應(yīng)用于選擇的任何數(shù)據(jù)集。


文章標(biāo)題:如何在Python中加入多個(gè)數(shù)據(jù)幀?
URL鏈接:http://m.5511xx.com/article/dpgepse.html