新聞中心
01 什么是知識(shí)圖譜
1. 搜索引擎方式革新
?

2012年5月6日,Google發(fā)布了“知識(shí)圖譜”的新一代“智能”搜索功能。
傳統(tǒng)的搜索引擎搜索數(shù)據(jù),更多的方法是基于關(guān)鍵詞匹配的方式。
近兩年來,我們到各大搜索引擎上搜索信息時(shí),比如搜索關(guān)鍵詞“詹姆斯瓦特”,你會(huì)發(fā)現(xiàn)在某一個(gè)地方出現(xiàn)一些卡片,信息卡片的方式是搜索領(lǐng)域的一大革新,它是基于知識(shí)圖譜的方式。
2. 知識(shí)圖譜的本質(zhì)
?
基于關(guān)鍵詞匹配的傳統(tǒng)搜索引擎,是將匹配到關(guān)鍵詞后再把信息展現(xiàn)出來。
如果把信息的形式進(jìn)行轉(zhuǎn)換,例如將里面的人物、地點(diǎn)、時(shí)間等信息抽取出來,構(gòu)建一個(gè)知識(shí)圖譜的結(jié)構(gòu),就可以將“詹姆斯瓦特的校友是誰(shuí)?”等問題的答案推理出來。
知識(shí)圖譜實(shí)現(xiàn)了從原來的關(guān)鍵字匹配、內(nèi)容匹配的方式,轉(zhuǎn)變?yōu)閷?duì)信息的推理、對(duì)信息的追溯這種方式。
知識(shí)圖譜本質(zhì)上是基于圖的語(yǔ)義網(wǎng)絡(luò),表示實(shí)體與實(shí)體之間的關(guān)系。
02 知識(shí)圖譜研究的多個(gè)維度
知識(shí)圖譜相關(guān)領(lǐng)域包括知識(shí)工程、自然語(yǔ)言處理、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等。
知識(shí)工程:例如知識(shí)庫(kù)構(gòu)建、基于規(guī)則的推理等。
自然語(yǔ)言處理:例如信息抽取、語(yǔ)義解析等。
數(shù)據(jù)庫(kù):例如RDF數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)集成、知識(shí)融合等。
機(jī)器學(xué)習(xí):例如知識(shí)圖譜數(shù)據(jù)的知識(shí)表示(Graph Embedding)等。
1. 知識(shí)工程
知識(shí)圖譜是Web和?數(shù)據(jù)時(shí)代的知識(shí)?程新的發(fā)展形態(tài)。
知識(shí)工程的核心是知識(shí)庫(kù)和推理引擎。?
知識(shí)庫(kù)包括以下幾個(gè)方面:
- 領(lǐng)域本體的構(gòu)建:面向特定領(lǐng)域的形式化地對(duì)于共享概念體系的明確而又詳細(xì)的說明。
- 知識(shí)抽取:從海量的數(shù)據(jù)中通過信息抽取的?式獲取知識(shí)。
- 知識(shí)融合:通過對(duì)多個(gè)相關(guān)知識(shí)圖譜的對(duì)?、關(guān)聯(lián)和合并,使其稱為?個(gè)有機(jī)的整體,以提供更全?知識(shí)。
① 知識(shí)圖譜數(shù)據(jù)模型
- RDF?
基于領(lǐng)域本體的構(gòu)建,有幾種基本的數(shù)據(jù)模型,比如常見的RDF數(shù)據(jù)模型。
RDF數(shù)據(jù)模型將知識(shí)庫(kù)里面的各個(gè)本體以及它的屬性,還有一些相關(guān)的屬性值,以及它和其他的本體之間的關(guān)系,用一個(gè)3元組的方式來描述,即主謂賓三列的表。
?
- RDFs?
RDF數(shù)據(jù)模型的一種變式,在RDF數(shù)據(jù)層的基礎(chǔ)上引?模式層,定義類、屬性、關(guān)系、屬性的定義域與值域來描述與約束資源,構(gòu)建最基本的類層次體系和屬性體系,?持簡(jiǎn)單的上下位推理。
- 本體語(yǔ)言O(shè)WL?
進(jìn)?步擴(kuò)展RDFs詞匯,可聲明類間互斥關(guān)系、屬性的傳遞性等復(fù)雜語(yǔ)義,?持基于本體的?動(dòng)推理,提供了?組合適web傳播的描述邏輯的語(yǔ)法,對(duì)機(jī)器友好,但認(rèn)知復(fù)雜性限制了?程應(yīng)?。
② 知識(shí)抽取
?
③ 大規(guī)模知識(shí)抽取?
知識(shí)庫(kù)的構(gòu)建有以下案例:
- Yago(Yet Another Great Ontology)?
融合了WordNet和Wikipedia,從Wikipedia的結(jié)構(gòu)中抽取信息,利???采樣評(píng)估
- DBPedia?
通過社區(qū)成員定義和撰寫準(zhǔn)確的抽取模板,進(jìn)?從維基百科中抽取結(jié)構(gòu)信息,并將其發(fā)布到Web上。
- Freebase
從Wikipedia和其他數(shù)據(jù)源(如 IMDB、MusicBrainz)中導(dǎo)?知識(shí)。
2. 自然語(yǔ)言處理
?然語(yǔ)?處理和知識(shí)圖譜研究是雙向互動(dòng)的關(guān)系:?然語(yǔ)?處理為知識(shí)圖譜抽取知識(shí);知識(shí)圖譜可以提升NLP任務(wù)的準(zhǔn)確度。
(1)知識(shí)圖譜與自然語(yǔ)言處理
知識(shí)圖譜與自然語(yǔ)言處理在如下兩個(gè)方面關(guān)系緊密:
①信息抽取
主要技術(shù):實(shí)體識(shí)別與抽取、實(shí)體消歧、關(guān)系抽取
趨勢(shì)及挑戰(zhàn):
? 從封閉?向開放
? ?規(guī)模信息抽取
? 深層次挖掘信息背后的語(yǔ)義(從抽取到理解)
②語(yǔ)義解析
語(yǔ)義解析就是將?然語(yǔ)?映射成機(jī)器可以表達(dá)的形式。
主要技術(shù):詞義消歧、語(yǔ)義??標(biāo)注、指代消解等。
應(yīng)?:
? ?向知識(shí)圖譜的?然語(yǔ)?問答
? 聊天機(jī)器?等
(2)實(shí)體識(shí)別
在實(shí)體識(shí)別中,命名實(shí)體識(shí)別的主要?法有如下兩種:
①基于規(guī)則的實(shí)體識(shí)別?法
基于命名實(shí)體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語(yǔ)完成實(shí)體識(shí)別。
優(yōu)點(diǎn):規(guī)則簡(jiǎn)單。
缺點(diǎn):需要構(gòu)建詞典和規(guī)則;性能受詞典規(guī)模和質(zhì)量的影響。
②基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別?法
利?預(yù)先標(biāo)注好的語(yǔ)料訓(xùn)練模型,使模型學(xué)習(xí)到某個(gè)字或詞作為命名實(shí)體組成部分的概率,進(jìn)?計(jì)算?個(gè)候選字段作為命名實(shí)體的概率值。若?于某?閾值,則識(shí)別為命名實(shí)體。
分為:最?熵模型(Maximum Entropy Model)和條件隨機(jī)場(chǎng)模型(Conditional Markov Random Field)。
(3)語(yǔ)義解析之語(yǔ)義搜索
語(yǔ)義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請(qǐng)求語(yǔ)句的字?本?,?是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到?戶所輸?語(yǔ)句后?的真正意圖,并以此來進(jìn)?搜索,從?更準(zhǔn)確地向?戶返回最符合其需求的搜索結(jié)果。
(4)語(yǔ)義解析之知識(shí)問答
智能問答的主要?法有如下兩種:
①基于信息檢索的?法
?先利?中?分詞、命名實(shí)體識(shí)別等?然語(yǔ)?處理?具找到問句中所涉及到的實(shí)體和關(guān)鍵詞,然后去知識(shí)資源庫(kù)中去進(jìn)?檢索,并通過打分模型對(duì)答案進(jìn)?排序。
②基于語(yǔ)義解析的?法
將?個(gè)?然語(yǔ)?形式的問句,按照特定語(yǔ)?的語(yǔ)法規(guī)則,解析成語(yǔ)義表達(dá)式,將其轉(zhuǎn)化為某種數(shù)據(jù)庫(kù)的查詢語(yǔ)?。
兩種主要方法的框架對(duì)比如下所示:
3. 圖數(shù)據(jù)庫(kù)
知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系從以下四個(gè)方面介紹:知識(shí)圖譜與數(shù)據(jù)管理、基于關(guān)系的知識(shí)圖譜存儲(chǔ)管理、原生知識(shí)圖譜存儲(chǔ)管理、知識(shí)圖譜與圖數(shù)據(jù)庫(kù)。
① 知識(shí)圖譜與數(shù)據(jù)管理
知識(shí)圖譜本質(zhì)上是多關(guān)系圖,通常?“實(shí)體”來表達(dá)圖?的結(jié)點(diǎn)、?“關(guān)系”來表達(dá)圖?的邊。
關(guān)系型數(shù)據(jù)庫(kù):實(shí)體與實(shí)體之間的關(guān)系通常都是利?外鍵來實(shí)現(xiàn),對(duì)關(guān)系的查詢需要?量join操作。
圖數(shù)據(jù)庫(kù):圖模型建模實(shí)體(結(jié)點(diǎn))和實(shí)體之間的關(guān)系(邊),在對(duì)關(guān)系的操作上有更?的性能。
② 基于關(guān)系的知識(shí)圖譜存儲(chǔ)管理
使用三元組進(jìn)行知識(shí)圖譜的存儲(chǔ):
優(yōu)點(diǎn):簡(jiǎn)單明了
缺點(diǎn):最?問題在于將知識(shí)圖譜查詢翻譯為 SQL 查詢后會(huì)產(chǎn)?三元組表的?量?連接操作。
為解決基于關(guān)系的是指圖譜存儲(chǔ)管理中出現(xiàn)的問題,采用以下兩種方法解決:
- 屬性表:屬性相似的聚為?張表?
優(yōu)點(diǎn):克服三元組?連接的問題。
缺點(diǎn):?對(duì)多聯(lián)系或多值屬性存儲(chǔ)問題、RDF的靈活性等。
代表:采?屬性表存儲(chǔ)?案的代表系統(tǒng)是 RDF 三元組庫(kù) Jena。
- 垂直劃分:以謂語(yǔ)劃分三元組表?
優(yōu)點(diǎn):克服屬性表的空值多值問題。
缺點(diǎn):?量屬性表、刪除代價(jià)?。
代表:采?垂直劃分存儲(chǔ)?案的代表數(shù)據(jù)庫(kù)是 SW‐Store。
③ 原生知識(shí)圖譜存儲(chǔ)管理
- RDF模型?
?
gStore系統(tǒng)利用子圖匹配整個(gè)圖譜。
優(yōu)點(diǎn):任意一個(gè)節(jié)點(diǎn)不滿足子圖的模式都可以跳過,實(shí)現(xiàn)高并發(fā)。
- 屬性圖
?
典型屬性圖代表:Neo4j圖數(shù)據(jù)庫(kù)。
與RDF的區(qū)別為:邊也有屬性,可以與RDF互相轉(zhuǎn)換
④ 知識(shí)圖譜與圖數(shù)據(jù)庫(kù)
?
4. 機(jī)器學(xué)習(xí)
在與機(jī)器學(xué)習(xí)的聯(lián)系更多地表現(xiàn)在知識(shí)表示學(xué)習(xí)這一方面,應(yīng)用較多的場(chǎng)景為知識(shí)推理。
① 知識(shí)表示學(xué)習(xí)
知識(shí)表示學(xué)習(xí)的背景是基于?絡(luò)形式的知識(shí)表示存在數(shù)據(jù)稀疏問題和計(jì)算效率問題。
知識(shí)表示學(xué)習(xí)(representation learning)主要是?向知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)?表示學(xué)習(xí),使?建模?法將實(shí)體和向量表示在低維稠密向量空間中,然后進(jìn)?計(jì)算和推理。
- 優(yōu)點(diǎn):顯著提升計(jì)算效率,有效緩解數(shù)據(jù)稀疏,實(shí)現(xiàn)異質(zhì)信息融合。
- 應(yīng)?:知識(shí)圖譜補(bǔ)全、相似度計(jì)算、關(guān)系抽取、?動(dòng)問答、實(shí)體鏈指。
- 舉例:知識(shí)表示代表模型:TransE [Bordes et al., NIPS 13]。
對(duì)每個(gè)事實(shí)(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個(gè)Subject/Predicate/Object,都映射成?個(gè)多維向量。優(yōu)化?標(biāo)是S+P=O 。
② 自然語(yǔ)言問答
?
03 從人工智能和大數(shù)據(jù)的角度看待知識(shí)圖譜
為什么要從這兩個(gè)角度來看待?這主要是目前這兩個(gè)角度非常火。
① 人工智能的誕生
早在1956年達(dá)特茅斯會(huì)議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機(jī)器來模仿?類學(xué)習(xí)以及其他??的智能”。
人工智能目前有兩個(gè)流派:符號(hào)主義(Symbolism)與連接主義(Connectionism)。
- 符號(hào)主義
符號(hào)主義(symbolicism),?稱為邏輯主義(logicism)、?理學(xué)派(psychologism)或計(jì)算機(jī)學(xué)派(computerism),其主要原理為認(rèn)知過程就是在符號(hào)表示上的?種運(yùn)算。
可以舉例理解:
?明認(rèn)識(shí)???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。
- 連接主義?
連接主義(connectionism),?稱為仿?學(xué)派(bionicsism)或?理學(xué)派(physiologism),其主要原理為智能活動(dòng)是由?量簡(jiǎn)單的單元通過復(fù)雜的相互連接后并?運(yùn)?的結(jié)果。
當(dāng)前典型研究:深度學(xué)習(xí)、深度神經(jīng)?絡(luò)。
可以舉例理解:
?明學(xué)騎???:經(jīng)過?時(shí)間練習(xí),?明終于學(xué)會(huì)了!卻說不清楚“到底該怎樣”騎。
② 知識(shí)圖譜與人工智能
?
計(jì)算機(jī)的發(fā)展分為三個(gè)階段:計(jì)算智能、感知智能、認(rèn)知智能。
人工智能需要機(jī)器智能,特別是認(rèn)知智能,而認(rèn)知智能依賴知識(shí)圖譜。
目前的重要研究方向是和連接主義的結(jié)合(例如知識(shí)圖譜的表示學(xué)習(xí)等)。
③ 知識(shí)圖譜與大數(shù)據(jù)
- 知識(shí)圖譜與大數(shù)據(jù)的聯(lián)系?
“知識(shí)圖譜”是?向關(guān)聯(lián)分析的?數(shù)據(jù)模型。
大數(shù)據(jù)的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價(jià)值),Veracity (真實(shí))。其中最重要是Value,但價(jià)值是隱含的,而大數(shù)據(jù)里面隱含的關(guān)系,可以用一個(gè)知識(shí)圖譜來表示。
- 知識(shí)圖譜與大數(shù)據(jù)的應(yīng)用?
知識(shí)圖譜與大數(shù)據(jù)方面的應(yīng)用包括以下幾個(gè)方面:
圖機(jī)器學(xué)習(xí),例如TransE,GCN等模型。
圖數(shù)據(jù)庫(kù),例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。
圖計(jì)算系統(tǒng),例如點(diǎn)中心模型系統(tǒng)Pregel、GraphLab等。
圖挖掘算法,例如Pagerank、Simrank、社區(qū)發(fā)現(xiàn)、影響力傳播等。
04 我們的工作
① 研發(fā)路線圖
?
我們團(tuán)隊(duì)來自于北京大學(xué)王選計(jì)算機(jī)研究所數(shù)據(jù)管理研究室,2011年開始做圖數(shù)據(jù)庫(kù)方面的研究,提出了子圖匹配的方法來實(shí)現(xiàn)RDF的查詢、2013年至2017年開發(fā)的gStore中提出了基于結(jié)構(gòu)感知的圖數(shù)據(jù)庫(kù)索引和子圖匹配查詢優(yōu)化理論。
② 技術(shù)路線圖
?
基于圖的生態(tài)鏈的系統(tǒng)平臺(tái)分為三個(gè)步驟研發(fā):知識(shí)圖譜的構(gòu)建、知識(shí)圖譜管理、知識(shí)圖譜應(yīng)用。
- 知識(shí)圖譜的構(gòu)建
大部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化或非結(jié)構(gòu)化等形式,存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,而非以RDF或?qū)傩詧D的形式存儲(chǔ),因此在構(gòu)建時(shí)需要進(jìn)行數(shù)據(jù)形式的轉(zhuǎn)換。
涉及知識(shí)抽取、知識(shí)融合等問題,是整個(gè)系統(tǒng)平臺(tái)的重難點(diǎn)。
- 知識(shí)圖譜管理
解決轉(zhuǎn)換成RDF或?qū)傩詧D的數(shù)據(jù)怎么存儲(chǔ)、如何進(jìn)行數(shù)據(jù)管理、為知識(shí)圖譜應(yīng)用提供高效訪問接口等問題。
- 知識(shí)圖譜應(yīng)用
開發(fā)知識(shí)圖譜的應(yīng)用,體現(xiàn)數(shù)據(jù)的價(jià)值,是整個(gè)系統(tǒng)平臺(tái)的價(jià)值點(diǎn)。
③ 產(chǎn)品生態(tài)
?
- gStore?
項(xiàng)?特點(diǎn):基于?圖匹配的圖數(shù)據(jù)查詢和優(yōu)化策略,單機(jī)能?持50億規(guī)模的圖數(shù)據(jù)的存儲(chǔ)和查詢,以及更新等。
代碼:除了SPARQL語(yǔ)法解析器外均為獨(dú)?開發(fā)的,?前有14萬?C++代碼,完成?主知識(shí)產(chǎn)權(quán)。
目前版本:v 0.9.1
項(xiàng)?主?:gstore.cn
開源地址:https://github.com/pkumod/gStore
- gBuilder
項(xiàng)?特點(diǎn):知識(shí)圖譜構(gòu)建的?體化平臺(tái),包括Schema設(shè)計(jì),結(jié)構(gòu)化和?結(jié)構(gòu)數(shù)據(jù)抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。
- gAnswer?
項(xiàng)?特點(diǎn):基于?圖匹配的知識(shí)圖譜的?然語(yǔ)?問答?法。
開源地址:https://github.com/pkumod/gAnswer
- gStore Workbench
gStore可視化管理工具。
- gCloud
“開箱即用”的gStore服務(wù)。
- gMaster
支持百億規(guī)模分布式部署。
gStore高效RDF圖數(shù)據(jù)庫(kù)管理系統(tǒng)實(shí)現(xiàn)了自主可控國(guó)產(chǎn)化,能夠與國(guó)產(chǎn)化CPU和操作系統(tǒng)適配。賦能國(guó)產(chǎn)?主可控的計(jì)算機(jī)體系架構(gòu)。
05 相關(guān)案例
① 金融科技
知識(shí)關(guān)聯(lián)查詢:?融實(shí)體查詢、多層股權(quán)查詢、?融實(shí)體關(guān)聯(lián)分析。
?險(xiǎn)分析:?險(xiǎn)識(shí)別、資本系分析。
② 政府大數(shù)據(jù)
社會(huì)的自然人會(huì)產(chǎn)生諸多數(shù)據(jù),例如出生、教育、住房、就業(yè)、婚姻生育、醫(yī)療養(yǎng)老、死亡等方面的數(shù)據(jù)?;谶@些數(shù)據(jù)可以進(jìn)行政府大數(shù)據(jù)融合與挖掘,例如用于民政和司法的親屬關(guān)系檢索。
③ 智慧紀(jì)檢
可以使用知識(shí)圖譜進(jìn)行干部廉潔畫像、社會(huì)關(guān)系分析、話單分析等。
④ 智慧醫(yī)療
基于藥物說明書構(gòu)建“病-癥-藥”的知識(shí)圖譜,可以進(jìn)行疾病科室、疾病癥狀、疾病并發(fā)癥、健康飲食智能問答等應(yīng)用。
⑤ 人工智能
例如智能問答等語(yǔ)音機(jī)器人。
⑥ 氣象交通
將規(guī)則寫進(jìn)知識(shí)圖譜,實(shí)時(shí)采集氣象信息并進(jìn)行知識(shí)圖譜的匹配,以起到預(yù)警的作用。
⑦ 公安知識(shí)圖譜
多維度知識(shí)探索:從“同程、同宿、同案件”等多個(gè)維度進(jìn)?知識(shí)探索和知識(shí)推理。
隱含關(guān)系挖掘:從交通出?、?吧上?、出?境等部?和系統(tǒng)中獲取數(shù)據(jù),發(fā)現(xiàn)?物的“同?,同上?,同出國(guó)”等隱含關(guān)聯(lián)關(guān)系。
嘉賓:李文杰博士 北京大學(xué) 博士后
本文標(biāo)題:知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系,終于有人講明白了
轉(zhuǎn)載注明:http://m.5511xx.com/article/cdeipoh.html


咨詢
建站咨詢
