日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系,終于有人講明白了

01 什么是知識(shí)圖譜

1. 搜索引擎方式革新

?

2012年5月6日,Google發(fā)布了“知識(shí)圖譜”的新一代“智能”搜索功能。

傳統(tǒng)的搜索引擎搜索數(shù)據(jù),更多的方法是基于關(guān)鍵詞匹配的方式。

近兩年來,我們到各大搜索引擎上搜索信息時(shí),比如搜索關(guān)鍵詞“詹姆斯瓦特”,你會(huì)發(fā)現(xiàn)在某一個(gè)地方出現(xiàn)一些卡片,信息卡片的方式是搜索領(lǐng)域的一大革新,它是基于知識(shí)圖譜的方式。

2. 知識(shí)圖譜的本質(zhì)

?

基于關(guān)鍵詞匹配的傳統(tǒng)搜索引擎,是將匹配到關(guān)鍵詞后再把信息展現(xiàn)出來。

如果把信息的形式進(jìn)行轉(zhuǎn)換,例如將里面的人物、地點(diǎn)、時(shí)間等信息抽取出來,構(gòu)建一個(gè)知識(shí)圖譜的結(jié)構(gòu),就可以將“詹姆斯瓦特的校友是誰(shuí)?”等問題的答案推理出來。

知識(shí)圖譜實(shí)現(xiàn)了從原來的關(guān)鍵字匹配、內(nèi)容匹配的方式,轉(zhuǎn)變?yōu)閷?duì)信息的推理、對(duì)信息的追溯這種方式。

知識(shí)圖譜本質(zhì)上是基于圖的語(yǔ)義網(wǎng)絡(luò),表示實(shí)體與實(shí)體之間的關(guān)系。

02 知識(shí)圖譜研究的多個(gè)維度

知識(shí)圖譜相關(guān)領(lǐng)域包括知識(shí)工程、自然語(yǔ)言處理、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等。

知識(shí)工程:例如知識(shí)庫(kù)構(gòu)建、基于規(guī)則的推理等。

自然語(yǔ)言處理:例如信息抽取、語(yǔ)義解析等。

數(shù)據(jù)庫(kù):例如RDF數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)集成、知識(shí)融合等。

機(jī)器學(xué)習(xí):例如知識(shí)圖譜數(shù)據(jù)的知識(shí)表示(Graph Embedding)等。

1. 知識(shí)工程

知識(shí)圖譜是Web和?數(shù)據(jù)時(shí)代的知識(shí)?程新的發(fā)展形態(tài)。

知識(shí)工程的核心是知識(shí)庫(kù)和推理引擎。?

知識(shí)庫(kù)包括以下幾個(gè)方面:

  • 領(lǐng)域本體的構(gòu)建:面向特定領(lǐng)域的形式化地對(duì)于共享概念體系的明確而又詳細(xì)的說明。
  • 知識(shí)抽取:從海量的數(shù)據(jù)中通過信息抽取的?式獲取知識(shí)。
  • 知識(shí)融合:通過對(duì)多個(gè)相關(guān)知識(shí)圖譜的對(duì)?、關(guān)聯(lián)和合并,使其稱為?個(gè)有機(jī)的整體,以提供更全?知識(shí)。

① 知識(shí)圖譜數(shù)據(jù)模型

  • RDF?

基于領(lǐng)域本體的構(gòu)建,有幾種基本的數(shù)據(jù)模型,比如常見的RDF數(shù)據(jù)模型。

RDF數(shù)據(jù)模型將知識(shí)庫(kù)里面的各個(gè)本體以及它的屬性,還有一些相關(guān)的屬性值,以及它和其他的本體之間的關(guān)系,用一個(gè)3元組的方式來描述,即主謂賓三列的表。

?

  • RDFs?

RDF數(shù)據(jù)模型的一種變式,在RDF數(shù)據(jù)層的基礎(chǔ)上引?模式層,定義類、屬性、關(guān)系、屬性的定義域與值域來描述與約束資源,構(gòu)建最基本的類層次體系和屬性體系,?持簡(jiǎn)單的上下位推理。

  • 本體語(yǔ)言O(shè)WL?

進(jìn)?步擴(kuò)展RDFs詞匯,可聲明類間互斥關(guān)系、屬性的傳遞性等復(fù)雜語(yǔ)義,?持基于本體的?動(dòng)推理,提供了?組合適web傳播的描述邏輯的語(yǔ)法,對(duì)機(jī)器友好,但認(rèn)知復(fù)雜性限制了?程應(yīng)?。

② 知識(shí)抽取

?

③ 大規(guī)模知識(shí)抽取?

知識(shí)庫(kù)的構(gòu)建有以下案例:

  • Yago(Yet Another Great Ontology)?

融合了WordNet和Wikipedia,從Wikipedia的結(jié)構(gòu)中抽取信息,利???采樣評(píng)估

  • DBPedia?

通過社區(qū)成員定義和撰寫準(zhǔn)確的抽取模板,進(jìn)?從維基百科中抽取結(jié)構(gòu)信息,并將其發(fā)布到Web上。

  • Freebase

從Wikipedia和其他數(shù)據(jù)源(如 IMDB、MusicBrainz)中導(dǎo)?知識(shí)。

2. 自然語(yǔ)言處理

?然語(yǔ)?處理和知識(shí)圖譜研究是雙向互動(dòng)的關(guān)系:?然語(yǔ)?處理為知識(shí)圖譜抽取知識(shí);知識(shí)圖譜可以提升NLP任務(wù)的準(zhǔn)確度。

(1)知識(shí)圖譜與自然語(yǔ)言處理

知識(shí)圖譜與自然語(yǔ)言處理在如下兩個(gè)方面關(guān)系緊密:

①信息抽取 

主要技術(shù):實(shí)體識(shí)別與抽取、實(shí)體消歧、關(guān)系抽取

趨勢(shì)及挑戰(zhàn):

? 從封閉?向開放

? ?規(guī)模信息抽取

? 深層次挖掘信息背后的語(yǔ)義(從抽取到理解)

②語(yǔ)義解析 

語(yǔ)義解析就是將?然語(yǔ)?映射成機(jī)器可以表達(dá)的形式。

主要技術(shù):詞義消歧、語(yǔ)義??標(biāo)注、指代消解等。

應(yīng)?:

? ?向知識(shí)圖譜的?然語(yǔ)?問答

? 聊天機(jī)器?等

(2)實(shí)體識(shí)別

在實(shí)體識(shí)別中,命名實(shí)體識(shí)別的主要?法有如下兩種:

①基于規(guī)則的實(shí)體識(shí)別?法 

基于命名實(shí)體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語(yǔ)完成實(shí)體識(shí)別。

優(yōu)點(diǎn):規(guī)則簡(jiǎn)單。

缺點(diǎn):需要構(gòu)建詞典和規(guī)則;性能受詞典規(guī)模和質(zhì)量的影響。

②基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別?法 

利?預(yù)先標(biāo)注好的語(yǔ)料訓(xùn)練模型,使模型學(xué)習(xí)到某個(gè)字或詞作為命名實(shí)體組成部分的概率,進(jìn)?計(jì)算?個(gè)候選字段作為命名實(shí)體的概率值。若?于某?閾值,則識(shí)別為命名實(shí)體。

分為:最?熵模型(Maximum Entropy Model)和條件隨機(jī)場(chǎng)模型(Conditional Markov Random Field)。

(3)語(yǔ)義解析之語(yǔ)義搜索

語(yǔ)義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請(qǐng)求語(yǔ)句的字?本?,?是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到?戶所輸?語(yǔ)句后?的真正意圖,并以此來進(jìn)?搜索,從?更準(zhǔn)確地向?戶返回最符合其需求的搜索結(jié)果。

(4)語(yǔ)義解析之知識(shí)問答

智能問答的主要?法有如下兩種:

①基于信息檢索的?法 

?先利?中?分詞、命名實(shí)體識(shí)別等?然語(yǔ)?處理?具找到問句中所涉及到的實(shí)體和關(guān)鍵詞,然后去知識(shí)資源庫(kù)中去進(jìn)?檢索,并通過打分模型對(duì)答案進(jìn)?排序。

②基于語(yǔ)義解析的?法 

將?個(gè)?然語(yǔ)?形式的問句,按照特定語(yǔ)?的語(yǔ)法規(guī)則,解析成語(yǔ)義表達(dá)式,將其轉(zhuǎn)化為某種數(shù)據(jù)庫(kù)的查詢語(yǔ)?。

兩種主要方法的框架對(duì)比如下所示:

3. 圖數(shù)據(jù)庫(kù)

知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系從以下四個(gè)方面介紹:知識(shí)圖譜與數(shù)據(jù)管理、基于關(guān)系的知識(shí)圖譜存儲(chǔ)管理、原生知識(shí)圖譜存儲(chǔ)管理、知識(shí)圖譜與圖數(shù)據(jù)庫(kù)。

① 知識(shí)圖譜與數(shù)據(jù)管理

知識(shí)圖譜本質(zhì)上是多關(guān)系圖,通常?“實(shí)體”來表達(dá)圖?的結(jié)點(diǎn)、?“關(guān)系”來表達(dá)圖?的邊。

關(guān)系型數(shù)據(jù)庫(kù):實(shí)體與實(shí)體之間的關(guān)系通常都是利?外鍵來實(shí)現(xiàn),對(duì)關(guān)系的查詢需要?量join操作。

圖數(shù)據(jù)庫(kù):圖模型建模實(shí)體(結(jié)點(diǎn))和實(shí)體之間的關(guān)系(邊),在對(duì)關(guān)系的操作上有更?的性能。

② 基于關(guān)系的知識(shí)圖譜存儲(chǔ)管理

使用三元組進(jìn)行知識(shí)圖譜的存儲(chǔ):

優(yōu)點(diǎn):簡(jiǎn)單明了

缺點(diǎn):最?問題在于將知識(shí)圖譜查詢翻譯為 SQL 查詢后會(huì)產(chǎn)?三元組表的?量?連接操作。

為解決基于關(guān)系的是指圖譜存儲(chǔ)管理中出現(xiàn)的問題,采用以下兩種方法解決:

  • 屬性表:屬性相似的聚為?張表?

優(yōu)點(diǎn):克服三元組?連接的問題。

缺點(diǎn):?對(duì)多聯(lián)系或多值屬性存儲(chǔ)問題、RDF的靈活性等。

代表:采?屬性表存儲(chǔ)?案的代表系統(tǒng)是 RDF 三元組庫(kù) Jena。

  • 垂直劃分:以謂語(yǔ)劃分三元組表?

優(yōu)點(diǎn):克服屬性表的空值多值問題。

缺點(diǎn):?量屬性表、刪除代價(jià)?。

代表:采?垂直劃分存儲(chǔ)?案的代表數(shù)據(jù)庫(kù)是 SW‐Store。

③ 原生知識(shí)圖譜存儲(chǔ)管理

  • RDF模型?

?

gStore系統(tǒng)利用子圖匹配整個(gè)圖譜。

優(yōu)點(diǎn):任意一個(gè)節(jié)點(diǎn)不滿足子圖的模式都可以跳過,實(shí)現(xiàn)高并發(fā)。

  • 屬性圖 

?

典型屬性圖代表:Neo4j圖數(shù)據(jù)庫(kù)。

與RDF的區(qū)別為:邊也有屬性,可以與RDF互相轉(zhuǎn)換

④ 知識(shí)圖譜與圖數(shù)據(jù)庫(kù)

?

4. 機(jī)器學(xué)習(xí)

在與機(jī)器學(xué)習(xí)的聯(lián)系更多地表現(xiàn)在知識(shí)表示學(xué)習(xí)這一方面,應(yīng)用較多的場(chǎng)景為知識(shí)推理。

① 知識(shí)表示學(xué)習(xí)

知識(shí)表示學(xué)習(xí)的背景是基于?絡(luò)形式的知識(shí)表示存在數(shù)據(jù)稀疏問題和計(jì)算效率問題。

知識(shí)表示學(xué)習(xí)(representation learning)主要是?向知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)?表示學(xué)習(xí),使?建模?法將實(shí)體和向量表示在低維稠密向量空間中,然后進(jìn)?計(jì)算和推理。

  • 優(yōu)點(diǎn):顯著提升計(jì)算效率,有效緩解數(shù)據(jù)稀疏,實(shí)現(xiàn)異質(zhì)信息融合。 
  • 應(yīng)?:知識(shí)圖譜補(bǔ)全、相似度計(jì)算、關(guān)系抽取、?動(dòng)問答、實(shí)體鏈指。
  • 舉例:知識(shí)表示代表模型:TransE [Bordes et al., NIPS 13]。 

對(duì)每個(gè)事實(shí)(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個(gè)Subject/Predicate/Object,都映射成?個(gè)多維向量。優(yōu)化?標(biāo)是S+P=O 。

② 自然語(yǔ)言問答

?

03 從人工智能和大數(shù)據(jù)的角度看待知識(shí)圖譜

為什么要從這兩個(gè)角度來看待?這主要是目前這兩個(gè)角度非常火。

① 人工智能的誕生

早在1956年達(dá)特茅斯會(huì)議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機(jī)器來模仿?類學(xué)習(xí)以及其他??的智能”。

人工智能目前有兩個(gè)流派:符號(hào)主義(Symbolism)與連接主義(Connectionism)。

  • 符號(hào)主義

符號(hào)主義(symbolicism),?稱為邏輯主義(logicism)、?理學(xué)派(psychologism)或計(jì)算機(jī)學(xué)派(computerism),其主要原理為認(rèn)知過程就是在符號(hào)表示上的?種運(yùn)算。

可以舉例理解:

?明認(rèn)識(shí)???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。

  • 連接主義?

連接主義(connectionism),?稱為仿?學(xué)派(bionicsism)或?理學(xué)派(physiologism),其主要原理為智能活動(dòng)是由?量簡(jiǎn)單的單元通過復(fù)雜的相互連接后并?運(yùn)?的結(jié)果。

當(dāng)前典型研究:深度學(xué)習(xí)、深度神經(jīng)?絡(luò)。

可以舉例理解:

?明學(xué)騎???:經(jīng)過?時(shí)間練習(xí),?明終于學(xué)會(huì)了!卻說不清楚“到底該怎樣”騎。

② 知識(shí)圖譜與人工智能

?

計(jì)算機(jī)的發(fā)展分為三個(gè)階段:計(jì)算智能、感知智能、認(rèn)知智能。

人工智能需要機(jī)器智能,特別是認(rèn)知智能,而認(rèn)知智能依賴知識(shí)圖譜。

目前的重要研究方向是和連接主義的結(jié)合(例如知識(shí)圖譜的表示學(xué)習(xí)等)。

③ 知識(shí)圖譜與大數(shù)據(jù)

  • 知識(shí)圖譜與大數(shù)據(jù)的聯(lián)系?

“知識(shí)圖譜”是?向關(guān)聯(lián)分析的?數(shù)據(jù)模型。

大數(shù)據(jù)的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價(jià)值),Veracity (真實(shí))。其中最重要是Value,但價(jià)值是隱含的,而大數(shù)據(jù)里面隱含的關(guān)系,可以用一個(gè)知識(shí)圖譜來表示。

  • 知識(shí)圖譜與大數(shù)據(jù)的應(yīng)用?

知識(shí)圖譜與大數(shù)據(jù)方面的應(yīng)用包括以下幾個(gè)方面:

圖機(jī)器學(xué)習(xí),例如TransE,GCN等模型。

圖數(shù)據(jù)庫(kù),例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。

圖計(jì)算系統(tǒng),例如點(diǎn)中心模型系統(tǒng)Pregel、GraphLab等。

圖挖掘算法,例如Pagerank、Simrank、社區(qū)發(fā)現(xiàn)、影響力傳播等。

04 我們的工作

① 研發(fā)路線圖

?

我們團(tuán)隊(duì)來自于北京大學(xué)王選計(jì)算機(jī)研究所數(shù)據(jù)管理研究室,2011年開始做圖數(shù)據(jù)庫(kù)方面的研究,提出了子圖匹配的方法來實(shí)現(xiàn)RDF的查詢、2013年至2017年開發(fā)的gStore中提出了基于結(jié)構(gòu)感知的圖數(shù)據(jù)庫(kù)索引和子圖匹配查詢優(yōu)化理論。

② 技術(shù)路線圖

?

基于圖的生態(tài)鏈的系統(tǒng)平臺(tái)分為三個(gè)步驟研發(fā):知識(shí)圖譜的構(gòu)建、知識(shí)圖譜管理、知識(shí)圖譜應(yīng)用。

  • 知識(shí)圖譜的構(gòu)建

大部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化或非結(jié)構(gòu)化等形式,存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,而非以RDF或?qū)傩詧D的形式存儲(chǔ),因此在構(gòu)建時(shí)需要進(jìn)行數(shù)據(jù)形式的轉(zhuǎn)換。

涉及知識(shí)抽取、知識(shí)融合等問題,是整個(gè)系統(tǒng)平臺(tái)的重難點(diǎn)。

  • 知識(shí)圖譜管理

解決轉(zhuǎn)換成RDF或?qū)傩詧D的數(shù)據(jù)怎么存儲(chǔ)、如何進(jìn)行數(shù)據(jù)管理、為知識(shí)圖譜應(yīng)用提供高效訪問接口等問題。

  • 知識(shí)圖譜應(yīng)用

開發(fā)知識(shí)圖譜的應(yīng)用,體現(xiàn)數(shù)據(jù)的價(jià)值,是整個(gè)系統(tǒng)平臺(tái)的價(jià)值點(diǎn)。

③ 產(chǎn)品生態(tài)

?

  • gStore?

項(xiàng)?特點(diǎn):基于?圖匹配的圖數(shù)據(jù)查詢和優(yōu)化策略,單機(jī)能?持50億規(guī)模的圖數(shù)據(jù)的存儲(chǔ)和查詢,以及更新等。

代碼:除了SPARQL語(yǔ)法解析器外均為獨(dú)?開發(fā)的,?前有14萬?C++代碼,完成?主知識(shí)產(chǎn)權(quán)。

目前版本:v 0.9.1

項(xiàng)?主?:gstore.cn

開源地址:https://github.com/pkumod/gStore

  • gBuilder

項(xiàng)?特點(diǎn):知識(shí)圖譜構(gòu)建的?體化平臺(tái),包括Schema設(shè)計(jì),結(jié)構(gòu)化和?結(jié)構(gòu)數(shù)據(jù)抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。

  • gAnswer?

項(xiàng)?特點(diǎn):基于?圖匹配的知識(shí)圖譜的?然語(yǔ)?問答?法。

開源地址:https://github.com/pkumod/gAnswer

  • gStore Workbench

gStore可視化管理工具。

  • gCloud

“開箱即用”的gStore服務(wù)。

  • gMaster

支持百億規(guī)模分布式部署。

gStore高效RDF圖數(shù)據(jù)庫(kù)管理系統(tǒng)實(shí)現(xiàn)了自主可控國(guó)產(chǎn)化,能夠與國(guó)產(chǎn)化CPU和操作系統(tǒng)適配。賦能國(guó)產(chǎn)?主可控的計(jì)算機(jī)體系架構(gòu)。

05 相關(guān)案例

① 金融科技

知識(shí)關(guān)聯(lián)查詢:?融實(shí)體查詢、多層股權(quán)查詢、?融實(shí)體關(guān)聯(lián)分析。

?險(xiǎn)分析:?險(xiǎn)識(shí)別、資本系分析。

② 政府大數(shù)據(jù)

社會(huì)的自然人會(huì)產(chǎn)生諸多數(shù)據(jù),例如出生、教育、住房、就業(yè)、婚姻生育、醫(yī)療養(yǎng)老、死亡等方面的數(shù)據(jù)?;谶@些數(shù)據(jù)可以進(jìn)行政府大數(shù)據(jù)融合與挖掘,例如用于民政和司法的親屬關(guān)系檢索。

③ 智慧紀(jì)檢

可以使用知識(shí)圖譜進(jìn)行干部廉潔畫像、社會(huì)關(guān)系分析、話單分析等。

④ 智慧醫(yī)療

基于藥物說明書構(gòu)建“病-癥-藥”的知識(shí)圖譜,可以進(jìn)行疾病科室、疾病癥狀、疾病并發(fā)癥、健康飲食智能問答等應(yīng)用。

⑤ 人工智能

例如智能問答等語(yǔ)音機(jī)器人。

⑥ 氣象交通

將規(guī)則寫進(jìn)知識(shí)圖譜,實(shí)時(shí)采集氣象信息并進(jìn)行知識(shí)圖譜的匹配,以起到預(yù)警的作用。

⑦ 公安知識(shí)圖譜

多維度知識(shí)探索:從“同程、同宿、同案件”等多個(gè)維度進(jìn)?知識(shí)探索和知識(shí)推理。

隱含關(guān)系挖掘:從交通出?、?吧上?、出?境等部?和系統(tǒng)中獲取數(shù)據(jù),發(fā)現(xiàn)?物的“同?,同上?,同出國(guó)”等隱含關(guān)聯(lián)關(guān)系。

嘉賓:李文杰博士 北京大學(xué) 博士后


本文標(biāo)題:知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系,終于有人講明白了
轉(zhuǎn)載注明:http://m.5511xx.com/article/cdeipoh.html