国产精品日韩在线,国产又爽又粗又猛的视频,日韩 欧美 国产 另类,色综合天天色综合

阿帕比 全民數(shù)字閱讀

首頁(yè) ? 新聞動(dòng)態(tài) ? 公司新聞

湯幟:知識(shí)服務(wù)技術(shù)報(bào)告 ——2014中國(guó)數(shù)字圖書館可持續(xù)發(fā)展研討會(huì)主題報(bào)告

背景:2014年5月21日,由高等教育文獻(xiàn)保障系統(tǒng)(CALIS)管理中心、江蘇省高校圖書情報(bào)工作委員會(huì)和方正IT旗下的北京方正阿帕比技術(shù)有限公司(以下簡(jiǎn)稱“方正阿帕比”)聯(lián)合主辦的“2014中國(guó)數(shù)字圖書館可持續(xù)發(fā)展研討會(huì)”在南京隆重召開。數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室主任、北京大學(xué)計(jì)算機(jī)研究所研究員、北京方正阿帕比技術(shù)有限公司CTO湯幟做主題報(bào)告。
        以下為詳細(xì)內(nèi)容:
        湯幟:尊敬的各位來賓,大家好!我們今天會(huì)議的主題是探索與知識(shí)的距離。
說到知識(shí)服務(wù)服務(wù)、管理這些詞,其實(shí)很久以前就出現(xiàn)了,在上世紀(jì)90年代就有人寫書寫論文寫這些問題,但是真正的知識(shí)服務(wù)技術(shù)是最近幾年的事情,為什么這么講呢?因?yàn)镮T技術(shù)的發(fā)展非常的快,使我們現(xiàn)在有條件能夠把這些大量的傳統(tǒng)的信息數(shù)據(jù)轉(zhuǎn)換成知識(shí)。這個(gè)圖我們可以看到這是一個(gè)國(guó)際上著名的IT咨詢公司總結(jié)的一個(gè)圖,它是把現(xiàn)在已經(jīng)影響當(dāng)今社會(huì)最大的四項(xiàng)顛覆性的技術(shù)描述在這里,其中包括移動(dòng)計(jì)算,我們很清楚的,每個(gè)人手里都拿著手機(jī)。還有社會(huì)計(jì)算,就是通過社會(huì)化網(wǎng)絡(luò),人機(jī)的協(xié)同來計(jì)算。還有一個(gè)就是云計(jì)算,再有一個(gè)就是大數(shù)據(jù),大數(shù)據(jù)的事情和我們的知識(shí)服務(wù)關(guān)系就更加密切了,曾經(jīng)OPPO的CEO說過,我們現(xiàn)在在互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)就相當(dāng)于人類進(jìn)入信息以來到2013年產(chǎn)生的數(shù)據(jù),我們?cè)趺礃硬槐粩?shù)據(jù)給淹沒了?就需要把這個(gè)數(shù)據(jù)有機(jī)的組織起來。其實(shí)知識(shí)服務(wù)技術(shù)有很多,還是在繼續(xù)的研究和探索過程當(dāng)中,我們可以從今年發(fā)布的2015年度863指南就可以看到,其中2.2基于大數(shù)據(jù)的人類智能關(guān)鍵技術(shù)與系統(tǒng)。CCF大數(shù)據(jù)專家委員會(huì)發(fā)布的《2014大數(shù)據(jù)發(fā)展趨勢(shì)預(yù)測(cè)》當(dāng)中可以看到,大數(shù)據(jù)分析與可視化,其中的熱點(diǎn)技術(shù)同樣和我們的知識(shí)技術(shù)非常密切。這里有深度學(xué)習(xí)技術(shù),自然語(yǔ)言處理,云計(jì)算等等。
        我們?cè)趺磥砜创@些東西呢?首先可以從知識(shí)的處理流程來看,知識(shí)處理的路程,一個(gè)是知識(shí)的采集,知識(shí)的聚合,知識(shí)的挖掘,知識(shí)的存儲(chǔ),知識(shí)的利用,知識(shí)的評(píng)價(jià)。知識(shí)的采集是知識(shí)服務(wù)的一個(gè)源頭,數(shù)據(jù)首先要有來源,這個(gè)是從出版的領(lǐng)域,圖書館里都可以采集很當(dāng)多數(shù)據(jù),包括互聯(lián)網(wǎng)的數(shù)據(jù)。知識(shí)利用的出口——知識(shí)的評(píng)價(jià),對(duì)產(chǎn)生的知識(shí)數(shù)據(jù)更進(jìn)一步。通過讀者也好,通過各種各樣的評(píng)價(jià),利用社會(huì)計(jì)算的方式提高知識(shí)的質(zhì)量,或者產(chǎn)生新的知識(shí),進(jìn)入到下一個(gè)知識(shí)采集的循環(huán)里面去。
        其中最難的一件事是什么呢?我們?cè)诖罅康臄?shù)據(jù)里面,從顯性的知識(shí)和隱性的知識(shí)資源中提煉,涉及計(jì)算機(jī)的技術(shù)也有不少,包括自然語(yǔ)言處理技術(shù),數(shù)據(jù)挖掘的技術(shù),知識(shí)重組技術(shù)和語(yǔ)義網(wǎng)技術(shù)。在2000年之后,語(yǔ)義網(wǎng)技術(shù)已經(jīng)發(fā)展起來,技術(shù)的應(yīng)用已經(jīng)逐漸的走向成熟。
        語(yǔ)義網(wǎng)技術(shù)是知識(shí)服務(wù)的技術(shù)的核心,這個(gè)很早就有了,從下面看包括了數(shù)據(jù)UII等等。有了這個(gè)數(shù)據(jù)描述框架還不夠,語(yǔ)義網(wǎng)的技術(shù)目的是要能夠讓計(jì)算機(jī)自動(dòng)的去計(jì)算,能夠識(shí)別,在這個(gè)基礎(chǔ)上發(fā)展出來的OWL語(yǔ)言。它相關(guān)的還有IDF數(shù)據(jù)的存儲(chǔ),以及IDF數(shù)據(jù)的查詢語(yǔ)言,這里組成了語(yǔ)義數(shù)據(jù)的存儲(chǔ)。
        語(yǔ)義網(wǎng)為網(wǎng)絡(luò)本題語(yǔ)言,把它本題的各種實(shí)體建立起一些關(guān)聯(lián)關(guān)系,后面的計(jì)算機(jī)就可以自動(dòng)化的處理,比如捕捉OWL的地址,里面包括了這個(gè)實(shí)體相關(guān)事件,居住地,地點(diǎn),國(guó)家等等,還有相關(guān)聯(lián)的關(guān)系,層次的關(guān)系等等,這些信息都可以通過一個(gè)OWL的方式進(jìn)行整體描述。這樣后續(xù)的服務(wù)可以提供更好的支持。這些數(shù)據(jù)都是用三聯(lián)組的方式描述的,數(shù)據(jù)和數(shù)據(jù)之間有很多的關(guān)聯(lián)關(guān)系,組成了一個(gè)網(wǎng)狀的圖,這樣的一個(gè)數(shù)據(jù)用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)去描述就很困難,因?yàn)殛P(guān)系數(shù)據(jù)庫(kù)只能描述二維表格的數(shù)據(jù),而這個(gè)用一些新的技術(shù)手段進(jìn)行描述,利用數(shù)據(jù)庫(kù)提供更好的查詢、檢索和快速的找到相關(guān)的檢索數(shù)據(jù)。這是一個(gè)語(yǔ)義網(wǎng)里面很重要的一個(gè)方面。
        數(shù)據(jù)的查詢,我們傳統(tǒng)的數(shù)據(jù)庫(kù)有SPARQL可以提供一個(gè)自然語(yǔ)言方式的查詢,比如要查詢某某人大學(xué)校友的職業(yè)是什么,好幾個(gè)層次下來以后,傳統(tǒng)的檢索是很難去檢索這樣的事情,但是通過SPARQL語(yǔ)言,就很容易的把這樣一個(gè)自然的事情快速的檢索出來,這是語(yǔ)義網(wǎng)帶來的一個(gè)好處。
        語(yǔ)義網(wǎng)的發(fā)展最近幾年已經(jīng)得到了比較多的應(yīng)用,這個(gè)圖我們看到的例子就是谷歌,它其實(shí)利用了繼續(xù)學(xué)習(xí)的方法,從網(wǎng)頁(yè)當(dāng)中發(fā)現(xiàn)了實(shí)體與實(shí)體之間的關(guān)系。
        谷歌發(fā)布了一個(gè)知識(shí)圖譜,搜索一個(gè)字條以后,除了傳統(tǒng)的谷歌條以外,在它的右邊也可以顯示出相關(guān)具體的信息,比如說檢索居里夫人,在右邊的圖上直接可以看到居里夫人的出生年月,獲得的諾貝爾獎(jiǎng),這些信息很精確地就出來了。在有下放還有相關(guān)科學(xué)家的圖片和連接,這是把不同的視頻關(guān)系可以直接的展示出來。
        在國(guó)外的百度搜索里面也有一些類似的技術(shù),比如在百度上搜一個(gè)不掉毛的狗,還直接給了一個(gè)直接查詢結(jié)果,這是實(shí)體的介紹。通過搜狗的智立方可以查到姚明的身高,這是語(yǔ)義網(wǎng)技術(shù)的推理,直接得到一個(gè)數(shù)據(jù)。從這個(gè)結(jié)果里面我們可以看到,直接搜索也可以出來這個(gè)結(jié)果,互聯(lián)網(wǎng)的智能是不是已經(jīng)非常發(fā)達(dá)了呢?其實(shí)答案是否定的。我們現(xiàn)在看到姚明的身高出來了,查我的身高到網(wǎng)上肯定查不到,輸入湯幟的身高出來的結(jié)果沒有一個(gè)我的身高數(shù)字。換一個(gè)詞,我們查湯幟的職稱,這個(gè)在互聯(lián)網(wǎng)上是有的,在北大的網(wǎng)頁(yè)上可以找到我的職稱,但是敲進(jìn)去還是一樣,這個(gè)網(wǎng)頁(yè)沒有那個(gè)職稱信息,這是為什么呢?其實(shí)語(yǔ)義網(wǎng)技術(shù)可以把姚明的身高直接跳出來,但是光有這個(gè)技術(shù)本身還不夠,需要有大量的實(shí)體數(shù)據(jù)才能夠把這些通過語(yǔ)義的推理找到,從這點(diǎn)上講,谷歌也好,搜狗也好,這些以往搜索的技術(shù)目前還是處于少量的熱門的一些詞可以找出來,或者說現(xiàn)在達(dá)到了技術(shù)展示的目的,達(dá)到一些娛樂大眾的目的,但是還不能達(dá)到真正的知識(shí)服務(wù)的目的。其實(shí)最難的是什么?最難的就是我們?cè)诖罅康臄?shù)據(jù)里面,特別是非提供化的數(shù)據(jù)里面怎么樣能夠便捷的很快速的找出它的實(shí)體,以及實(shí)體與實(shí)體之間的關(guān)系,這是很難的事情。
        阿帕比知識(shí)服務(wù)也是做了很多的研究和實(shí)踐。從技術(shù)上講,主要是我們做了這幾方面的事情,我們利用了語(yǔ)義網(wǎng)的技術(shù)創(chuàng)建了阿帕比服務(wù),對(duì)于我們很多的數(shù)據(jù)進(jìn)行了實(shí)際的提取,建立一個(gè)RBF數(shù)據(jù),在這個(gè)基礎(chǔ)上面,我們還利用數(shù)據(jù)挖掘的技術(shù),把這些數(shù)據(jù)和阿帕比資源進(jìn)行了連接。實(shí)體數(shù)據(jù)建立起來以后還需要展示的技術(shù)提供給娛樂服務(wù),包括檢索服務(wù)等等,這些是我們現(xiàn)在做的一些工作。這個(gè)圖就可以給大家看看阿帕比的知識(shí)服務(wù)技術(shù),可以看到技術(shù)流程。從左上角的半結(jié)構(gòu)化的文化和非結(jié)構(gòu)化的文本,還有工具書。半結(jié)構(gòu)化文本的數(shù)據(jù)比較好做一些。非結(jié)構(gòu)化的數(shù)據(jù)就比較多,我們大量的從出版社出版的圖書都是非結(jié)構(gòu)化的,這些數(shù)據(jù)其實(shí)是最難的數(shù)據(jù)。第三塊是工具書,里面有很多的字典辭典,這些數(shù)據(jù)的抽取相對(duì)比較容易一些,這是處理的數(shù)據(jù)對(duì)象。我們還建立了阿帕比的知識(shí)架構(gòu),我們提供了一些相關(guān)的實(shí)體與實(shí)體關(guān)系之間的計(jì)算,建立了整個(gè)數(shù)據(jù)。這是知識(shí)服務(wù)技術(shù)相關(guān)的圖。
        基于這些技術(shù),我們已經(jīng)建立了大型的中英文數(shù)據(jù)的知識(shí)結(jié)構(gòu),這里面包含了2384個(gè)類,支持了的謂詞有8305個(gè),我們已經(jīng)建立了千萬個(gè)數(shù)據(jù),已經(jīng)可以提供阿帕比相關(guān)的一些知識(shí)和服務(wù)。我們可能有人會(huì)問,剛才講的谷歌,百度,從這些技術(shù)非常強(qiáng)的公司知識(shí)提取方面也遇到了很多的困難,阿帕比到底怎么做呢?從技術(shù)上講,我們?cè)谝粋€(gè)非結(jié)構(gòu)化的數(shù)據(jù)里面找出實(shí)體,然后建立實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,它的技術(shù)水平是大同小異,從學(xué)術(shù)界我們經(jīng)常看到有人發(fā)表了一個(gè)新的論文,提出了一個(gè)新的算法,最后一個(gè)數(shù)據(jù)的比較,效果提高了1%,甚至提高了百分之零點(diǎn)幾,這是我們經(jīng)??吹降囊粋€(gè)結(jié)果。但是從另外一個(gè)角度來講,實(shí)際的提取效果高1%,對(duì)人工的加工來說沒有任何影響,加工量仍然是一樣的。所以我們必須尋找一些更好的方法,能夠快速的去建立這些實(shí)體關(guān)系,我們阿帕比有一個(gè)很大的優(yōu)勢(shì),就是我們有很多的資源,出版社很多已經(jīng)加工好的數(shù)據(jù),特別是工具書里面,我們有很多的百科全書和辭典數(shù)據(jù),這些數(shù)據(jù)都是已經(jīng)條目化了,每個(gè)詞條和它的解釋都是有密切的關(guān)聯(lián)關(guān)系。運(yùn)用這些工具書的信息,我們可以建立更好的快速的從這里面找到一些實(shí)體與實(shí)體的分析關(guān)系,可以達(dá)到更好的效果。這是我們做了實(shí)體關(guān)系計(jì)算的比較優(yōu)勢(shì)的技術(shù)。
        有了IBF數(shù)據(jù)以后,我們可以提供更好的展示,從這個(gè)圖可以看到,如果檢索到一個(gè)秦始皇這個(gè)詞就馬上有一些秦始皇精確的解釋,出生年月,民族等等這些信息。我們也可以提供一些其他的詞,民族不是漢族的都有哪些人等等,屬性和類別的關(guān)聯(lián)關(guān)系可以直接的給出來。還列出一些同齡的人,都可以通過這個(gè)知識(shí)服務(wù)的方式去提供。
        目前阿帕比的知識(shí)服務(wù)技術(shù)已經(jīng)用了相關(guān)的產(chǎn)品里面去,我們通過學(xué)知搜索就可以看到,這里面已經(jīng)采用了知識(shí)關(guān)聯(lián)和句群抽取,SVM分類等。
        剛才主要講了一些語(yǔ)義網(wǎng)的技術(shù)和應(yīng)用,光有語(yǔ)義網(wǎng)是不夠的。這里的云計(jì)算都為知識(shí)提供措施,通過云計(jì)算可以隨時(shí)隨地的去享受知識(shí)的服務(wù),通過社會(huì)計(jì)算,我們除了剛才講實(shí)體提取的困難,也可以通過大量的社會(huì)計(jì)算的方式,使它的實(shí)體提取關(guān)聯(lián)做得更加的精準(zhǔn)。通過云計(jì)算,我們?yōu)橹R(shí)服務(wù)更加的高效和數(shù)據(jù)不斷的增長(zhǎng),創(chuàng)造一個(gè)更好的環(huán)境。
        這些知識(shí)服務(wù)提供了更多的應(yīng)用方式,比如說通過知識(shí)服務(wù)圖譜,知識(shí)導(dǎo)航,個(gè)性化知識(shí)對(duì)接的方式給讀者提供服務(wù)。也可以通過語(yǔ)義搜索,提供結(jié)構(gòu)化的查詢和關(guān)系的查詢。在知識(shí)服務(wù)的時(shí)候,我們可以提供更多的檢索,比如輸入一個(gè)數(shù)學(xué)公式,有一個(gè)數(shù)學(xué)公式出來,輸入一個(gè)化學(xué)公式式可以檢索出化學(xué)公式來,輸入一些圖片可以搜出相關(guān)的圖片來。我們和其他的同類算法做過一個(gè)比較,在整個(gè)的檢索效率上還是起到了作用。
        公式檢索還會(huì)想到一個(gè)問題,輸入一個(gè)公式很困難,我們也實(shí)現(xiàn)了一個(gè)通過鼠標(biāo)鍵盤輸入一個(gè)公式的界面,這樣任何人都可以輸入公式了。此外,我們還可以做一個(gè)更加方便的公式輸入方法,在閱讀過程當(dāng)中看到一個(gè)數(shù)學(xué)公式,拉入這個(gè)框,直接就可以檢索出公式來了。
        最后想對(duì)阿帕比知識(shí)服務(wù)技術(shù)做一個(gè)簡(jiǎn)單的小結(jié)。通過我們的知識(shí)技術(shù)服務(wù)可以增強(qiáng)我們內(nèi)容的透明度,使用語(yǔ)義挖掘書本中藏得更深的內(nèi)容。通過知識(shí)服務(wù),我們還可以基于內(nèi)容相關(guān)技術(shù),把用戶檢索的知識(shí)點(diǎn)進(jìn)行相關(guān)知識(shí)的提示,通過一些圖的方式,列表的方式,可以獲得更多的結(jié)果,能擴(kuò)大一些知識(shí)面。我們通過知識(shí)結(jié)構(gòu),可以提供知識(shí)點(diǎn)的一些精確的屬性,而且我們還可以提供與自然語(yǔ)言為基礎(chǔ)的語(yǔ)義檢索。通過知識(shí)服務(wù),我們還可以通過知識(shí)的結(jié)構(gòu)構(gòu)建出更多未知的知識(shí),通過課題的屬性,通過相關(guān)的一些類別??偟哪康木褪亲屪x者能夠更方便的,更加快捷的獲取更加多的知識(shí),這些知識(shí)服務(wù)技術(shù)已經(jīng)在剛才講的學(xué)知搜索里面應(yīng)用了。也會(huì)應(yīng)用到我們相關(guān)的技術(shù)服務(wù)。知識(shí)技術(shù)服務(wù)還是在不斷的發(fā)展當(dāng)中,阿帕比也愿意把這些知識(shí)服務(wù)技術(shù)不斷的開發(fā),研究一些新的提高完善的技術(shù),為廣大讀者提供更好的服務(wù)。