激情黄色成人网站,色婷婷AV一区二区,欧美日韩色图电影在线观看

新聞中心

這里有您想知道的互聯(lián)網營銷解決方案

深入了解Python數據處理及可視化

本篇文章給大家?guī)砹岁P于python的相關知識，其中主要介紹了關于數據處理以及可視化的相關問題，包括了NumPy的初步使用、Matplotlib包的使用和數據統(tǒng)計的可視化展示等等，希望對大家有幫助。

黃山區(qū)網站建設公司創(chuàng)新互聯(lián)公司,黃山區(qū)網站設計制作，有大型網站制作公司豐富經驗。已為黃山區(qū)上千家提供企業(yè)網站建設服務。企業(yè)網站搭建\成都外貿網站制作要多少錢，請找那個售后服務好的黃山區(qū)做網站的公司定做！

推薦學習：python教程

表格是數據的一般表示形式，但對于機器來說是不可理解的，也就是無法辨識的數據，所以我們需要對表格的形式進行調整。
常用的機器學習表示形式為數據矩陣。

我們觀察這個表格，發(fā)現(xiàn)，矩陣中的屬性有兩種，一種是數值型，一種是布爾型。那么我們現(xiàn)在就建立模型描述這個表格：

#  數據的矩陣化import numpy as np
data = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])row = 0for line in data:
    row += 1print( row )print(data.size)print(data)

這里第一行代碼的意思就是引入NumPy將其重命名為np。第二行我們使用NumPy中的mat()方法建立一個數據矩陣，row是引入的計算行數的變量。
這里的size意思就是5*5的一個表格，直接打印data就可以看到數據了：

二、Matplotlib包的使用–圖形化數據處理

我們還是看最上面的表格，第二列是房價的差異，我們想直觀的看出差別是不容易的（因為只有數字），所以我們希望能夠把它畫出來（研究數值差異和異常的方法就是繪制數據的分布程度）：

import numpy as npimport scipy.stats as statsimport pylab
data =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])coll = []for row in data:
    coll.append(row[0,1])stats.probplot(coll,plot=pylab)pylab.show()

這個代碼的結果就是生成一個圖：

這樣我們就能清晰的看出來差異了。

一個坐標圖的要求，就是通過不同的行和列表現(xiàn)出數據的具體值。
當然，坐標圖我們一樣可以展示：

三、深度學習理論方法–相似度計算（可以跳過）

相似度的計算方法有很多，我們選用最常用的兩種，即歐幾里得相似度和余弦相似度計算。

1、基于歐幾里得距離的相似度計算

歐幾里得距離，用來表示三維空間中兩個點的真實距離。公式我們其實都知道，只是名字聽的少：

那么我們來看一看它的實際應用：
這個表格是3個用戶對物品的打分：

d12表示用戶1和用戶2的相似度，那么就有：

同理，d13：

可見，用戶2更加相似于用戶1（距離越小，相似度越大）。

2、基于余弦角度的相似度計算

余弦角度的計算出發(fā)點是夾角的不同。

可見相對于用戶3，用戶2與用戶1更為相似（兩個目標越相似，其線段形成的夾角越?。?/p>

四、數據統(tǒng)計的可視化展示（以我們亳州市降水為例）

數據的四分位

四分位數，是統(tǒng)計學中分位數的一種，也就是把數據由小到大排列，之后分成四等份，處于三個分割點位置的數據，就是四分位數。
第一四分位數（Q1），也稱下四分位數；
第二四分位數（Q1），也稱中位數；
第三四分位數（Q1），也稱下四分位數；

第三四分位數與第一四分位數的差距又稱為四分差距（IQR）。

若n為項數，則：
Q1的位置 = （n+1）*0.25
Q2的位置 = （n+1）*0.50
Q3的位置 = （n+1）*0.75

四分位示例：
關于這個rain.csv，有需要的可以私我要文件，我使用的是亳州市2010-2019年的月份降水情況。

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()print(summary)array = dataFile.iloc[:,:].values
boxplot(array)plot.xlabel("year")plot.ylabel("rain")show()

以下是plot運行結果：

這個是pandas的運行

這里就可以很清晰的看出來數據的波動范圍。
可以看出，不同月份的降水量有很大差距，8月最多，1-4月和10-12月最少。

那么每月的降水增減程度如何比較？

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()minRings = -1maxRings = 99nrows = 11for i in range(nrows):
    dataRow = dataFile.iloc[i,1:13]
    labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )
    dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)plot.xlabel("Attribute")plot.ylabel(("Score"))show()

結果如圖：

可以看出來降水月份并不規(guī)律的上漲或下跌。

那么每月降水是否相關？

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()corMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())plot.pcolor(corMat)plot.show()

結果如圖：

可以看出，顏色分布十分均勻，表示沒有多大的相關性，因此可以認為每月的降水是獨立行為。

今天就記錄到這里了，我們下次再見！希望本文章對你也有所幫助。

新聞名稱：深入了解Python數據處理及可視化
本文網址：http://m.5511xx.com/article/ccicphh.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

二、Matplotlib包的使用–圖形化數據處理

三、深度學習理論方法–相似度計算（可以跳過）

1、基于歐幾里得距離的相似度計算

2、基于余弦角度的相似度計算

四、數據統(tǒng)計的可視化展示（以我們亳州市降水為例）

數據的四分位

其他資訊

新聞中心

二、Matplotlib包的使用–圖形化數據處理

三、深度學習理論方法–相似度計算（可以跳過）

1、基于歐幾里得距離的相似度計算

2、基于余弦角度的相似度計算

四、數據統(tǒng)計的可視化展示（以我們亳州市降水為例）

數據的四分位

其他資訊

二、Matplotlib包的使用–圖形化數據處理

1、基于歐幾里得距離的相似度計算