在這個信息爆炸的時代,我們每天看到的信息太多了,那么,怎樣才能從繁雜的信息里
快速閱讀自己想讀的文字呢?溫州大學甌江學院師生近日完成的一項名為“基于主題建模的文本小說自動摘要生成算法”的研究,可以幫大家解決這一問題,這項成果不僅被計算機科學與技術學科國際著名學術期刊《專家系統與應用》刊發,還順利申請了國家發明專利。
將10萬個單詞的英文小說
壓縮成500個單詞的摘要
雷力是溫州大學甌江學院電子信息工程專業2016屆本科畢業生,也是這項研究的主要研究者。他說,這項研究成果可以借助計算機代替人工,能夠快速地將10萬個單詞的長篇英文小說,自動壓縮為500個單詞左右的高質量小說摘要,幫助人們快速了解長篇小說的內容梗概。
在互聯網信息爆炸的時代背景,該研究具有重要的現實意義。該研究還申請了國家發明專利,并得到國家自然科學基金的資助。
說起搞這項研究的原因,雷力說,大三暑假,他開始考慮自己的畢業設計。那時,他剛從臺灣中華大學以交換生身份學習歸來,對“自然語言處理”領域產生了濃厚的興趣:這是一門融匯了計算機科學、語言學等在內的跨學科領域。他考慮以這個作為自己的畢業設計方向,作為自己邁向這個領域的第一步。
跨專業參與畢業設計不易
幸得學校老師的幫助
對于非計算機專業的學生來說,跨專業參與畢業設計是一件非常困難的事情:一是因為流程煩瑣,未必能找到合適的導師;二是因為自身缺少計算機科學的背景知識,存在著無法畢業的風險。但在班主任尤佳的鼓勵幫助下,雷力爭取到了在計算機科學系答辯的機會。
隨后,他找到了學術上頗有建樹的吳宗大老師,這位老師雖年輕,卻已在教學和科研上取得了耀眼成績,在國際權威學術期刊發表了許多成果。得知雷力的想法后,吳老師非常熱情地鼓勵和接納了他,并給他定下一個小目標:在領域內國際著名學術期刊上發表畢業設計成果,并申請國家發明專利。
相比已有的國際主流方法
他的方法摘要質量更高
定下目標后,雷力開始不斷地閱讀相關資料。一次,他偶然讀到了一篇論文,是利用文本自動摘要技術對小說進行摘要。他想,能不能在保證壓縮質量的前提下,進一步提高壓縮比呢,比如控制在四五百字?這樣,既可以使更多的人有機會了解經典書籍的大概內容,激發
閱讀興趣;又可以讓尋找資料的人在極短時間內判斷一篇文章是否為自己想要的,節省大量的時間成本。
有了這個想法后,雷力在吳老師的指導下,幾乎瘋狂地彌補著這塊研究的背景知識。為了能在盡可能少的句子里包含盡可能多的信息,他參考一些小說的文法結構特點,設計了一系列句子選取規則,建立了摘要提取模型,并在美國愛丁堡計劃提供的公共數據集(包含數百本經典長篇小說)上不斷進行實驗評估。與5個當前國際主流的摘要算法實驗比較結果表明:相比于已有方法,雷力提出的方法所生成的小說自動摘要不僅擁有更高的壓縮比率(0.5%以內),并且擁有極高的摘要質量(摘要主題多樣性得到顯著提高)。
這篇畢業設計獲得了溫州大學甌江學院2016屆本科優秀畢業論文。更讓雷力興奮的是,這篇論文得到了知名期刊《專家系統與應用》主編、美國路易斯安那州立大學BinshanLin博士的肯定。此后,根據審稿專家提出的中肯意見,雷力又開始設計新的實驗,反復和吳老師討論修改方向,斟酌用詞與結構,經過1個多月廢寢忘食地修改,最終該論文成功發表。
最近,憑借該論文,雷力正積極申請國外名校的研究生,現已得到多個學校的回應。
來源:浙青網-青年時報