清華新聞網(wǎng)12月27日電 近日,清華大學(xué)電子工程系劉長(zhǎng)松副教授團(tuán)隊(duì)與湖南省青蘋(píng)果數(shù)據(jù)中心有限公司合作,制作完成的高仿真標(biāo)準(zhǔn)格式電子出版物——延安時(shí)期《解放日?qǐng)?bào)》縮印本,由上海三聯(lián)書(shū)店出版發(fā)行。版式風(fēng)范仍如原報(bào),高仿真數(shù)字版面文件完整、準(zhǔn)確保留了原始版面信息。

延安時(shí)期《解放日?qǐng)?bào)》縮印本及電子版數(shù)據(jù)庫(kù)界面
清華大學(xué)電子工程系智能圖文信息處理研究室研究成果高性能東方文字文檔智能全信息數(shù)字化系統(tǒng),是制作保持原始排版電子出版物的專(zhuān)門(mén)工具,解決了正常質(zhì)量復(fù)雜版面報(bào)紙等文檔的電子化問(wèn)題,獲2003年國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)。
由于戰(zhàn)爭(zhēng)年代的特殊環(huán)境,報(bào)紙印刷質(zhì)量差、字跡模糊,印刷品大部分無(wú)法清晰辨識(shí),文字識(shí)別難度非常大,使用原有的TH-OCR文字識(shí)別技術(shù)識(shí)別率僅有30%-40%。在解決上述難題的過(guò)程中,清華團(tuán)隊(duì)在電子出版物制作的多個(gè)主要技術(shù)環(huán)節(jié)取得了重要?jiǎng)?chuàng)新,最終得到適用于延安時(shí)期《解放日?qǐng)?bào)》的文字識(shí)別與處理系統(tǒng),完成版面分析、識(shí)別、理解,最后自動(dòng)精確重構(gòu)為原式原樣的高仿真標(biāo)準(zhǔn)格式電子出版物,實(shí)現(xiàn)原文重現(xiàn)文檔全信息數(shù)字化規(guī)?;a(chǎn)。對(duì)于報(bào)紙版面及原文的平均識(shí)別率比原有技術(shù)提高36%以上,同時(shí)還可精準(zhǔn)識(shí)別字體、字號(hào)、位置、行距、字距以及其他版面信息,文檔數(shù)字化過(guò)程比使用原有技術(shù)效率提高一倍以上,為“革命文物——延安《解放日?qǐng)?bào)》再造出版項(xiàng)目”的順利實(shí)施提供保障。


延安時(shí)期《解放日?qǐng)?bào)》版面(上)及再造后的矢量數(shù)字報(bào)文件(下)
在文檔數(shù)字化應(yīng)用領(lǐng)域中,清華TH-OCR文字識(shí)別技術(shù)是信息采集、識(shí)別、加工、傳播全數(shù)字產(chǎn)業(yè)鏈蓬勃發(fā)展的堅(jiān)實(shí)基石。湖南省青蘋(píng)果數(shù)據(jù)中心有限公司作為該技術(shù)最早的應(yīng)用單位之一,使用TH-OCR技術(shù)先后完成了《人民日?qǐng)?bào)》圖文電子版、韓國(guó)歷史報(bào)刊電子版等幾十種數(shù)字化產(chǎn)品。
延安時(shí)期《解放日?qǐng)?bào)》的成功再造,驗(yàn)證了TH-OCR新技術(shù)的可行性,對(duì)于創(chuàng)新我國(guó)古舊文獻(xiàn)的數(shù)字化技術(shù),促進(jìn)珍貴文獻(xiàn)資源的開(kāi)發(fā)和利用,具有重要的應(yīng)用和推廣價(jià)值。
供稿:電子系
編輯:李華山
審核:郭玲