99久久日韩jm,亚洲精品第一国产自慰一区

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案

知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系，終于有人講明白了

01 什么是知識(shí)圖譜

1. 搜索引擎方式革新

2012年5月6日，Google發(fā)布了“知識(shí)圖譜”的新一代“智能”搜索功能。

傳統(tǒng)的搜索引擎搜索數(shù)據(jù)，更多的方法是基于關(guān)鍵詞匹配的方式。

近兩年來(lái)，我們到各大搜索引擎上搜索信息時(shí)，比如搜索關(guān)鍵詞“詹姆斯瓦特”，你會(huì)發(fā)現(xiàn)在某一個(gè)地方出現(xiàn)一些卡片，信息卡片的方式是搜索領(lǐng)域的一大革新，它是基于知識(shí)圖譜的方式。

2. 知識(shí)圖譜的本質(zhì)

基于關(guān)鍵詞匹配的傳統(tǒng)搜索引擎，是將匹配到關(guān)鍵詞后再把信息展現(xiàn)出來(lái)。

如果把信息的形式進(jìn)行轉(zhuǎn)換，例如將里面的人物、地點(diǎn)、時(shí)間等信息抽取出來(lái)，構(gòu)建一個(gè)知識(shí)圖譜的結(jié)構(gòu)，就可以將“詹姆斯瓦特的校友是誰(shuí)？”等問(wèn)題的答案推理出來(lái)。

知識(shí)圖譜實(shí)現(xiàn)了從原來(lái)的關(guān)鍵字匹配、內(nèi)容匹配的方式，轉(zhuǎn)變?yōu)閷?duì)信息的推理、對(duì)信息的追溯這種方式。

知識(shí)圖譜本質(zhì)上是基于圖的語(yǔ)義網(wǎng)絡(luò)，表示實(shí)體與實(shí)體之間的關(guān)系。

02 知識(shí)圖譜研究的多個(gè)維度

知識(shí)圖譜相關(guān)領(lǐng)域包括知識(shí)工程、自然語(yǔ)言處理、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等。

知識(shí)工程：例如知識(shí)庫(kù)構(gòu)建、基于規(guī)則的推理等。

自然語(yǔ)言處理：例如信息抽取、語(yǔ)義解析等。

數(shù)據(jù)庫(kù)：例如RDF數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)集成、知識(shí)融合等。

機(jī)器學(xué)習(xí)：例如知識(shí)圖譜數(shù)據(jù)的知識(shí)表示（Graph Embedding）等。

1. 知識(shí)工程

知識(shí)圖譜是Web和?數(shù)據(jù)時(shí)代的知識(shí)?程新的發(fā)展形態(tài)。

知識(shí)工程的核心是知識(shí)庫(kù)和推理引擎。?

知識(shí)庫(kù)包括以下幾個(gè)方面：

領(lǐng)域本體的構(gòu)建：面向特定領(lǐng)域的形式化地對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明。
知識(shí)抽取：從海量的數(shù)據(jù)中通過(guò)信息抽取的?式獲取知識(shí)。
知識(shí)融合：通過(guò)對(duì)多個(gè)相關(guān)知識(shí)圖譜的對(duì)?、關(guān)聯(lián)和合并，使其稱為?個(gè)有機(jī)的整體，以提供更全?知識(shí)。

① 知識(shí)圖譜數(shù)據(jù)模型

RDF?

基于領(lǐng)域本體的構(gòu)建，有幾種基本的數(shù)據(jù)模型，比如常見(jiàn)的RDF數(shù)據(jù)模型。

RDF數(shù)據(jù)模型將知識(shí)庫(kù)里面的各個(gè)本體以及它的屬性，還有一些相關(guān)的屬性值，以及它和其他的本體之間的關(guān)系，用一個(gè)3元組的方式來(lái)描述，即主謂賓三列的表。

RDFs?

RDF數(shù)據(jù)模型的一種變式，在RDF數(shù)據(jù)層的基礎(chǔ)上引?模式層，定義類、屬性、關(guān)系、屬性的定義域與值域來(lái)描述與約束資源，構(gòu)建最基本的類層次體系和屬性體系，?持簡(jiǎn)單的上下位推理。

本體語(yǔ)言O(shè)WL?

進(jìn)?步擴(kuò)展RDFs詞匯，可聲明類間互斥關(guān)系、屬性的傳遞性等復(fù)雜語(yǔ)義，?持基于本體的?動(dòng)推理，提供了?組合適web傳播的描述邏輯的語(yǔ)法，對(duì)機(jī)器友好，但認(rèn)知復(fù)雜性限制了?程應(yīng)?。

② 知識(shí)抽取

③ 大規(guī)模知識(shí)抽取?

知識(shí)庫(kù)的構(gòu)建有以下案例：

Yago(Yet Another Great Ontology)?

融合了WordNet和Wikipedia，從Wikipedia的結(jié)構(gòu)中抽取信息，利???采樣評(píng)估

DBPedia?

通過(guò)社區(qū)成員定義和撰寫(xiě)準(zhǔn)確的抽取模板，進(jìn)?從維基百科中抽取結(jié)構(gòu)信息，并將其發(fā)布到Web上。

Freebase

從Wikipedia和其他數(shù)據(jù)源（如 IMDB、MusicBrainz）中導(dǎo)?知識(shí)。

2. 自然語(yǔ)言處理

?然語(yǔ)?處理和知識(shí)圖譜研究是雙向互動(dòng)的關(guān)系：?然語(yǔ)?處理為知識(shí)圖譜抽取知識(shí)；知識(shí)圖譜可以提升NLP任務(wù)的準(zhǔn)確度。

（1）知識(shí)圖譜與自然語(yǔ)言處理

知識(shí)圖譜與自然語(yǔ)言處理在如下兩個(gè)方面關(guān)系緊密：

①信息抽取

主要技術(shù)：實(shí)體識(shí)別與抽取、實(shí)體消歧、關(guān)系抽取

趨勢(shì)及挑戰(zhàn)：

? 從封閉?向開(kāi)放

? ?規(guī)模信息抽取

? 深層次挖掘信息背后的語(yǔ)義（從抽取到理解）

②語(yǔ)義解析

語(yǔ)義解析就是將?然語(yǔ)?映射成機(jī)器可以表達(dá)的形式。

主要技術(shù)：詞義消歧、語(yǔ)義??標(biāo)注、指代消解等。

應(yīng)?：

? ?向知識(shí)圖譜的?然語(yǔ)?問(wèn)答

? 聊天機(jī)器?等

（2）實(shí)體識(shí)別

在實(shí)體識(shí)別中，命名實(shí)體識(shí)別的主要?法有如下兩種：

①基于規(guī)則的實(shí)體識(shí)別?法

基于命名實(shí)體詞典的?法：采?字符串完全匹配或部分匹配的?式，從?本中找出與詞典最相似的短語(yǔ)完成實(shí)體識(shí)別。

優(yōu)點(diǎn)：規(guī)則簡(jiǎn)單。

缺點(diǎn)：需要構(gòu)建詞典和規(guī)則；性能受詞典規(guī)模和質(zhì)量的影響。

②基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別?法

利?預(yù)先標(biāo)注好的語(yǔ)料訓(xùn)練模型，使模型學(xué)習(xí)到某個(gè)字或詞作為命名實(shí)體組成部分的概率，進(jìn)?計(jì)算?個(gè)候選字段作為命名實(shí)體的概率值。若?于某?閾值，則識(shí)別為命名實(shí)體。

分為：最?熵模型（Maximum Entropy Model）和條件隨機(jī)場(chǎng)模型（Conditional Markov Random Field）。

（3）語(yǔ)義解析之語(yǔ)義搜索

語(yǔ)義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請(qǐng)求語(yǔ)句的字?本?，?是透過(guò)現(xiàn)象看本質(zhì)，準(zhǔn)確地捕捉到?戶所輸?語(yǔ)句后?的真正意圖，并以此來(lái)進(jìn)?搜索，從?更準(zhǔn)確地向?戶返回最符合其需求的搜索結(jié)果。

（4）語(yǔ)義解析之知識(shí)問(wèn)答

智能問(wèn)答的主要?法有如下兩種：

①基于信息檢索的?法

?先利?中?分詞、命名實(shí)體識(shí)別等?然語(yǔ)?處理?具找到問(wèn)句中所涉及到的實(shí)體和關(guān)鍵詞，然后去知識(shí)資源庫(kù)中去進(jìn)?檢索，并通過(guò)打分模型對(duì)答案進(jìn)?排序。

②基于語(yǔ)義解析的?法

將?個(gè)?然語(yǔ)?形式的問(wèn)句，按照特定語(yǔ)?的語(yǔ)法規(guī)則，解析成語(yǔ)義表達(dá)式，將其轉(zhuǎn)化為某種數(shù)據(jù)庫(kù)的查詢語(yǔ)?。

兩種主要方法的框架對(duì)比如下所示：

3. 圖數(shù)據(jù)庫(kù)

知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系從以下四個(gè)方面介紹：知識(shí)圖譜與數(shù)據(jù)管理、基于關(guān)系的知識(shí)圖譜存儲(chǔ)管理、原生知識(shí)圖譜存儲(chǔ)管理、知識(shí)圖譜與圖數(shù)據(jù)庫(kù)。

① 知識(shí)圖譜與數(shù)據(jù)管理

知識(shí)圖譜本質(zhì)上是多關(guān)系圖，通常?“實(shí)體”來(lái)表達(dá)圖?的結(jié)點(diǎn)、?“關(guān)系”來(lái)表達(dá)圖?的邊。

關(guān)系型數(shù)據(jù)庫(kù)：實(shí)體與實(shí)體之間的關(guān)系通常都是利?外鍵來(lái)實(shí)現(xiàn)，對(duì)關(guān)系的查詢需要?量join操作。

圖數(shù)據(jù)庫(kù)：圖模型建模實(shí)體（結(jié)點(diǎn)）和實(shí)體之間的關(guān)系（邊），在對(duì)關(guān)系的操作上有更?的性能。

② 基于關(guān)系的知識(shí)圖譜存儲(chǔ)管理

使用三元組進(jìn)行知識(shí)圖譜的存儲(chǔ)：

優(yōu)點(diǎn)：簡(jiǎn)單明了

缺點(diǎn)：最?問(wèn)題在于將知識(shí)圖譜查詢翻譯為 SQL 查詢后會(huì)產(chǎn)?三元組表的?量?連接操作。

為解決基于關(guān)系的是指圖譜存儲(chǔ)管理中出現(xiàn)的問(wèn)題，采用以下兩種方法解決：

屬性表：屬性相似的聚為?張表?

優(yōu)點(diǎn)：克服三元組?連接的問(wèn)題。

缺點(diǎn)：?對(duì)多聯(lián)系或多值屬性存儲(chǔ)問(wèn)題、RDF的靈活性等。

代表：采?屬性表存儲(chǔ)?案的代表系統(tǒng)是 RDF 三元組庫(kù) Jena。

垂直劃分：以謂語(yǔ)劃分三元組表?

優(yōu)點(diǎn)：克服屬性表的空值多值問(wèn)題。

缺點(diǎn)：?量屬性表、刪除代價(jià)?。

代表：采?垂直劃分存儲(chǔ)?案的代表數(shù)據(jù)庫(kù)是 SW‐Store。

③ 原生知識(shí)圖譜存儲(chǔ)管理

RDF模型?

gStore系統(tǒng)利用子圖匹配整個(gè)圖譜。

優(yōu)點(diǎn)：任意一個(gè)節(jié)點(diǎn)不滿足子圖的模式都可以跳過(guò)，實(shí)現(xiàn)高并發(fā)。

屬性圖

典型屬性圖代表：Neo4j圖數(shù)據(jù)庫(kù)。

與RDF的區(qū)別為：邊也有屬性，可以與RDF互相轉(zhuǎn)換

④ 知識(shí)圖譜與圖數(shù)據(jù)庫(kù)

4. 機(jī)器學(xué)習(xí)

在與機(jī)器學(xué)習(xí)的聯(lián)系更多地表現(xiàn)在知識(shí)表示學(xué)習(xí)這一方面，應(yīng)用較多的場(chǎng)景為知識(shí)推理。

① 知識(shí)表示學(xué)習(xí)

知識(shí)表示學(xué)習(xí)的背景是基于?絡(luò)形式的知識(shí)表示存在數(shù)據(jù)稀疏問(wèn)題和計(jì)算效率問(wèn)題。

知識(shí)表示學(xué)習(xí)（representation learning）主要是?向知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)?表示學(xué)習(xí)，使?建模?法將實(shí)體和向量表示在低維稠密向量空間中，然后進(jìn)?計(jì)算和推理。

優(yōu)點(diǎn)：顯著提升計(jì)算效率，有效緩解數(shù)據(jù)稀疏，實(shí)現(xiàn)異質(zhì)信息融合。
應(yīng)?：知識(shí)圖譜補(bǔ)全、相似度計(jì)算、關(guān)系抽取、?動(dòng)問(wèn)答、實(shí)體鏈指。
舉例：知識(shí)表示代表模型：TransE [Bordes et al., NIPS 13]。

對(duì)每個(gè)事實(shí)（Subject, Predicate, Object），將其中的predicate作為從subject到object的翻譯操作。每個(gè)Subject/Predicate/Object，都映射成?個(gè)多維向量。優(yōu)化?標(biāo)是S+P=O 。

② 自然語(yǔ)言問(wèn)答

03 從人工智能和大數(shù)據(jù)的角度看待知識(shí)圖譜

為什么要從這兩個(gè)角度來(lái)看待？這主要是目前這兩個(gè)角度非?；稹?/p>

① 人工智能的誕生

早在1956年達(dá)特茅斯會(huì)議上，首次提出“??智能（Artificial Intelligence, AI）”的概念。人們將他概括為“?機(jī)器來(lái)模仿?類學(xué)習(xí)以及其他??的智能”。

人工智能目前有兩個(gè)流派：符號(hào)主義（Symbolism）與連接主義（Connectionism）。

符號(hào)主義

符號(hào)主義（symbolicism），?稱為邏輯主義（logicism）、?理學(xué)派（psychologism）或計(jì)算機(jī)學(xué)派（computerism），其主要原理為認(rèn)知過(guò)程就是在符號(hào)表示上的?種運(yùn)算。

可以舉例理解：

?明認(rèn)識(shí)???O：O(a,b,c,d,e) ，其中a（?把)）b（?胎）d（坐墊）e（?架）c（腳踏）。

連接主義?

連接主義（connectionism），?稱為仿?學(xué)派（bionicsism）或?理學(xué)派（physiologism），其主要原理為智能活動(dòng)是由?量簡(jiǎn)單的單元通過(guò)復(fù)雜的相互連接后并?運(yùn)?的結(jié)果。

當(dāng)前典型研究：深度學(xué)習(xí)、深度神經(jīng)?絡(luò)。

可以舉例理解：

?明學(xué)騎???：經(jīng)過(guò)?時(shí)間練習(xí)，?明終于學(xué)會(huì)了！卻說(shuō)不清楚“到底該怎樣”騎。

② 知識(shí)圖譜與人工智能

計(jì)算機(jī)的發(fā)展分為三個(gè)階段：計(jì)算智能、感知智能、認(rèn)知智能。

人工智能需要機(jī)器智能，特別是認(rèn)知智能，而認(rèn)知智能依賴知識(shí)圖譜。

目前的重要研究方向是和連接主義的結(jié)合（例如知識(shí)圖譜的表示學(xué)習(xí)等）。

③ 知識(shí)圖譜與大數(shù)據(jù)

知識(shí)圖譜與大數(shù)據(jù)的聯(lián)系?

“知識(shí)圖譜”是?向關(guān)聯(lián)分析的?數(shù)據(jù)模型。

大數(shù)據(jù)的5V 特性包括：Volume（大量），Velocity（高速），Variety（多樣），Value（價(jià)值），Veracity （真實(shí)）。其中最重要是Value，但價(jià)值是隱含的，而大數(shù)據(jù)里面隱含的關(guān)系，可以用一個(gè)知識(shí)圖譜來(lái)表示。

知識(shí)圖譜與大數(shù)據(jù)的應(yīng)用?

知識(shí)圖譜與大數(shù)據(jù)方面的應(yīng)用包括以下幾個(gè)方面：

圖機(jī)器學(xué)習(xí)，例如TransE，GCN等模型。

圖數(shù)據(jù)庫(kù)，例如RDF圖gStore、Virtuoso，屬性圖Neo4j、janusgraph等。

圖計(jì)算系統(tǒng)，例如點(diǎn)中心模型系統(tǒng)Pregel、GraphLab等。

圖挖掘算法，例如Pagerank、Simrank、社區(qū)發(fā)現(xiàn)、影響力傳播等。

04 我們的工作

① 研發(fā)路線圖

我們團(tuán)隊(duì)來(lái)自于北京大學(xué)王選計(jì)算機(jī)研究所數(shù)據(jù)管理研究室，2011年開(kāi)始做圖數(shù)據(jù)庫(kù)方面的研究，提出了子圖匹配的方法來(lái)實(shí)現(xiàn)RDF的查詢、2013年至2017年開(kāi)發(fā)的gStore中提出了基于結(jié)構(gòu)感知的圖數(shù)據(jù)庫(kù)索引和子圖匹配查詢優(yōu)化理論。

② 技術(shù)路線圖

基于圖的生態(tài)鏈的系統(tǒng)平臺(tái)分為三個(gè)步驟研發(fā)：知識(shí)圖譜的構(gòu)建、知識(shí)圖譜管理、知識(shí)圖譜應(yīng)用。

知識(shí)圖譜的構(gòu)建

大部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化或非結(jié)構(gòu)化等形式，存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中，而非以RDF或?qū)傩詧D的形式存儲(chǔ)，因此在構(gòu)建時(shí)需要進(jìn)行數(shù)據(jù)形式的轉(zhuǎn)換。

涉及知識(shí)抽取、知識(shí)融合等問(wèn)題，是整個(gè)系統(tǒng)平臺(tái)的重難點(diǎn)。

知識(shí)圖譜管理

解決轉(zhuǎn)換成RDF或?qū)傩詧D的數(shù)據(jù)怎么存儲(chǔ)、如何進(jìn)行數(shù)據(jù)管理、為知識(shí)圖譜應(yīng)用提供高效訪問(wèn)接口等問(wèn)題。

知識(shí)圖譜應(yīng)用

開(kāi)發(fā)知識(shí)圖譜的應(yīng)用，體現(xiàn)數(shù)據(jù)的價(jià)值，是整個(gè)系統(tǒng)平臺(tái)的價(jià)值點(diǎn)。

③ 產(chǎn)品生態(tài)

gStore?

項(xiàng)?特點(diǎn)：基于?圖匹配的圖數(shù)據(jù)查詢和優(yōu)化策略，單機(jī)能?持50億規(guī)模的圖數(shù)據(jù)的存儲(chǔ)和查詢，以及更新等。

代碼：除了SPARQL語(yǔ)法解析器外均為獨(dú)?開(kāi)發(fā)的，?前有14萬(wàn)?C++代碼，完成?主知識(shí)產(chǎn)權(quán)。

目前版本：v 0.9.1

項(xiàng)?主?：gstore.cn

開(kāi)源地址：https://github.com/pkumod/gStore

gBuilder

項(xiàng)?特點(diǎn)：知識(shí)圖譜構(gòu)建的?體化平臺(tái)，包括Schema設(shè)計(jì)，結(jié)構(gòu)化和?結(jié)構(gòu)數(shù)據(jù)抽取，融合多種?本抽取的算法模型，以及抽取模型NAS搜索等。

gAnswer?

項(xiàng)?特點(diǎn)：基于?圖匹配的知識(shí)圖譜的?然語(yǔ)?問(wèn)答?法。

開(kāi)源地址：https://github.com/pkumod/gAnswer

gStore Workbench

gStore可視化管理工具。

gCloud

“開(kāi)箱即用”的gStore服務(wù)。

gMaster

支持百億規(guī)模分布式部署。

gStore高效RDF圖數(shù)據(jù)庫(kù)管理系統(tǒng)實(shí)現(xiàn)了自主可控國(guó)產(chǎn)化，能夠與國(guó)產(chǎn)化CPU和操作系統(tǒng)適配。賦能?chē)?guó)產(chǎn)?主可控的計(jì)算機(jī)體系架構(gòu)。

05 相關(guān)案例

① 金融科技

知識(shí)關(guān)聯(lián)查詢：?融實(shí)體查詢、多層股權(quán)查詢、?融實(shí)體關(guān)聯(lián)分析。

?險(xiǎn)分析：?險(xiǎn)識(shí)別、資本系分析。

② 政府大數(shù)據(jù)

社會(huì)的自然人會(huì)產(chǎn)生諸多數(shù)據(jù)，例如出生、教育、住房、就業(yè)、婚姻生育、醫(yī)療養(yǎng)老、死亡等方面的數(shù)據(jù)?；谶@些數(shù)據(jù)可以進(jìn)行政府大數(shù)據(jù)融合與挖掘，例如用于民政和司法的親屬關(guān)系檢索。

③ 智慧紀(jì)檢

可以使用知識(shí)圖譜進(jìn)行干部廉潔畫(huà)像、社會(huì)關(guān)系分析、話單分析等。

④ 智慧醫(yī)療

基于藥物說(shuō)明書(shū)構(gòu)建“病-癥-藥”的知識(shí)圖譜，可以進(jìn)行疾病科室、疾病癥狀、疾病并發(fā)癥、健康飲食智能問(wèn)答等應(yīng)用。

⑤ 人工智能

例如智能問(wèn)答等語(yǔ)音機(jī)器人。

⑥ 氣象交通

將規(guī)則寫(xiě)進(jìn)知識(shí)圖譜，實(shí)時(shí)采集氣象信息并進(jìn)行知識(shí)圖譜的匹配，以起到預(yù)警的作用。

⑦ 公安知識(shí)圖譜

多維度知識(shí)探索：從“同程、同宿、同案件”等多個(gè)維度進(jìn)?知識(shí)探索和知識(shí)推理。

隱含關(guān)系挖掘：從交通出?、?吧上?、出?境等部?和系統(tǒng)中獲取數(shù)據(jù)，發(fā)現(xiàn)?物的“同?，同上?，同出國(guó)”等隱含關(guān)聯(lián)關(guān)系。

嘉賓：李文杰博士北京大學(xué) 博士后

本文名稱：知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的關(guān)系，終于有人講明白了
轉(zhuǎn)載來(lái)于：http://m.5511xx.com/article/cdeipoh.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区