在這個(gè)信息爆炸的時(shí)代,我們每天看到的信息太多了,那么,怎樣才能從繁雜的信息里
快速閱讀自己想讀的文字呢?溫州大學(xué)甌江學(xué)院師生近日完成的一項(xiàng)名為“基于主題建模的文本小說自動(dòng)摘要生成算法”的研究,可以幫大家解決這一問題,這項(xiàng)成果不僅被計(jì)算機(jī)科學(xué)與技術(shù)學(xué)科國際著名學(xué)術(shù)期刊《專家系統(tǒng)與應(yīng)用》刊發(fā),還順利申請(qǐng)了國家發(fā)明專利。
將10萬個(gè)單詞的英文小說
壓縮成500個(gè)單詞的摘要
雷力是溫州大學(xué)甌江學(xué)院電子信息工程專業(yè)2016屆本科畢業(yè)生,也是這項(xiàng)研究的主要研究者。他說,這項(xiàng)研究成果可以借助計(jì)算機(jī)代替人工,能夠快速地將10萬個(gè)單詞的長(zhǎng)篇英文小說,自動(dòng)壓縮為500個(gè)單詞左右的高質(zhì)量小說摘要,幫助人們快速了解長(zhǎng)篇小說的內(nèi)容梗概。
在互聯(lián)網(wǎng)信息爆炸的時(shí)代背景,該研究具有重要的現(xiàn)實(shí)意義。該研究還申請(qǐng)了國家發(fā)明專利,并得到國家自然科學(xué)基金的資助。
說起搞這項(xiàng)研究的原因,雷力說,大三暑假,他開始考慮自己的畢業(yè)設(shè)計(jì)。那時(shí),他剛從臺(tái)灣中華大學(xué)以交換生身份學(xué)習(xí)歸來,對(duì)“自然語言處理”領(lǐng)域產(chǎn)生了濃厚的興趣:這是一門融匯了計(jì)算機(jī)科學(xué)、語言學(xué)等在內(nèi)的跨學(xué)科領(lǐng)域。他考慮以這個(gè)作為自己的畢業(yè)設(shè)計(jì)方向,作為自己邁向這個(gè)領(lǐng)域的第一步。
跨專業(yè)參與畢業(yè)設(shè)計(jì)不易
幸得學(xué)校老師的幫助
對(duì)于非計(jì)算機(jī)專業(yè)的學(xué)生來說,跨專業(yè)參與畢業(yè)設(shè)計(jì)是一件非常困難的事情:一是因?yàn)榱鞒虩┈崳幢啬苷业胶线m的導(dǎo)師;二是因?yàn)樽陨砣鄙儆?jì)算機(jī)科學(xué)的背景知識(shí),存在著無法畢業(yè)的風(fēng)險(xiǎn)。但在班主任尤佳的鼓勵(lì)幫助下,雷力爭(zhēng)取到了在計(jì)算機(jī)科學(xué)系答辯的機(jī)會(huì)。
隨后,他找到了學(xué)術(shù)上頗有建樹的吳宗大老師,這位老師雖年輕,卻已在教學(xué)和科研上取得了耀眼成績(jī),在國際權(quán)威學(xué)術(shù)期刊發(fā)表了許多成果。得知雷力的想法后,吳老師非常熱情地鼓勵(lì)和接納了他,并給他定下一個(gè)小目標(biāo):在領(lǐng)域內(nèi)國際著名學(xué)術(shù)期刊上發(fā)表畢業(yè)設(shè)計(jì)成果,并申請(qǐng)國家發(fā)明專利。
相比已有的國際主流方法
他的方法摘要質(zhì)量更高
定下目標(biāo)后,雷力開始不斷地閱讀相關(guān)資料。一次,他偶然讀到了一篇論文,是利用文本自動(dòng)摘要技術(shù)對(duì)小說進(jìn)行摘要。他想,能不能在保證壓縮質(zhì)量的前提下,進(jìn)一步提高壓縮比呢,比如控制在四五百字?這樣,既可以使更多的人有機(jī)會(huì)了解經(jīng)典書籍的大概內(nèi)容,激發(fā)
閱讀興趣;又可以讓尋找資料的人在極短時(shí)間內(nèi)判斷一篇文章是否為自己想要的,節(jié)省大量的時(shí)間成本。
有了這個(gè)想法后,雷力在吳老師的指導(dǎo)下,幾乎瘋狂地彌補(bǔ)著這塊研究的背景知識(shí)。為了能在盡可能少的句子里包含盡可能多的信息,他參考一些小說的文法結(jié)構(gòu)特點(diǎn),設(shè)計(jì)了一系列句子選取規(guī)則,建立了摘要提取模型,并在美國愛丁堡計(jì)劃提供的公共數(shù)據(jù)集(包含數(shù)百本經(jīng)典長(zhǎng)篇小說)上不斷進(jìn)行實(shí)驗(yàn)評(píng)估。與5個(gè)當(dāng)前國際主流的摘要算法實(shí)驗(yàn)比較結(jié)果表明:相比于已有方法,雷力提出的方法所生成的小說自動(dòng)摘要不僅擁有更高的壓縮比率(0.5%以內(nèi)),并且擁有極高的摘要質(zhì)量(摘要主題多樣性得到顯著提高)。
這篇畢業(yè)設(shè)計(jì)獲得了溫州大學(xué)甌江學(xué)院2016屆本科優(yōu)秀畢業(yè)論文。更讓雷力興奮的是,這篇論文得到了知名期刊《專家系統(tǒng)與應(yīng)用》主編、美國路易斯安那州立大學(xué)BinshanLin博士的肯定。此后,根據(jù)審稿專家提出的中肯意見,雷力又開始設(shè)計(jì)新的實(shí)驗(yàn),反復(fù)和吳老師討論修改方向,斟酌用詞與結(jié)構(gòu),經(jīng)過1個(gè)多月廢寢忘食地修改,最終該論文成功發(fā)表。
最近,憑借該論文,雷力正積極申請(qǐng)國外名校的研究生,現(xiàn)已得到多個(gè)學(xué)校的回應(yīng)。
來源:浙青網(wǎng)-青年時(shí)報(bào)