當前位置:工程項目OA系統(tǒng) > 領域應用 > 醫(yī)院管理OA系統(tǒng) > 門診收費管理系統(tǒng)
中文電子病歷的信息抽取研究
引言
信息抽取作為一種文本處理技術n],通過利用機器的計算能力、計算的精確度和準確度為枯燥的信息搜索、分析和識別工作提供了理想的方法。信息抽取的主要功能是從文本中抽取特定的事實信息,被抽取出來的信息以結構化的形式描述,可以直接存人數據庫中,供用戶查詢以及進一步分析使用。在醫(yī)院信息系統(tǒng)的電子病歷(electronic medical re-cords,EMR)中蘊含著豐富的信息和知識。本研究利用文本工程通用框架(GATE)進行中文EMR信息抽取研究,目的是加強自然語言理解和本體方法在中文醫(yī)學文本語義標注和內容分析中的應用,為建立計算機可讀的EMR提供技術支持。
1 病種選擇和EMR文本的預處理
本文將病種選定為神經內科疾病腦梗死。在醫(yī)院信息系統(tǒng)中,以“《國際疾病分類》(ICD9)編碼=434.9”為檢索條件,選擇2008年1~6月問診斷為腦梗死的住院病人電子病歷83份,將其轉存為純文本格式并以此作為EMR文檔集。采用基于詞典的雙向最大匹配切詞法對EMR進行分詞處理。將經過分詞的EMR文檔集導入GATE平臺。
2 基于GATE的EMR語義標注和信息抽取
2.1 GATE基本架構
GATE是英國謝菲爾德大學研究開發(fā)的Java開源項目,為用戶提供了圖形化的開發(fā)環(huán)境,被許多自然語言處理項目尤其是信息抽取的項目采用,例如,美國匹茲堡大學建立癌癥文本信息抽取系統(tǒng)(cancer text information extraction system ,caT—IES)[2]。caTIES具有從臨床自由文本中抽取編碼信息的功能,可以利用受控詞表從臨床自由文本如
外科病理報告中抽取編碼信息并生成caBIG兼容的數據格式。
為簡化語言工程系統(tǒng)開發(fā)流程,GATE設計了“算法+數據+圖形用戶界面一應用”基本結構口]。按照此結構,GATE選用面向對象的編程語言和基于JavaBean組件的軟件開發(fā)方式,開發(fā)出一個核心庫和一系列可重用語言工程組件(a collection of re—usable objects for language engineering, CRE-OLE)。每個CREOLE組件包括語言資源(LRs)、處理資源(PRs)和可視化資源(VRs)三類資源,資源參數存儲于creole.xml文件中。用戶可根據應用快速靈活定制、修改、擴展各組件。GATE中的所有可重用資源的集合,被整體地用在了基于規(guī)則方法的英文信息抽取系統(tǒng)(a nearly—new information ex—traction system,ANNIES)中]。GATE 4.0提供了中文信息抽取組件,可以在語料分詞的前提下,實現人名、地名、機構名、時間、日期等命名實體的自動標識和抽取。
2.2 命名實體識別規(guī)則的構建
2.2.1 JAPE規(guī)則定義語言基于詞典識別實體的方法盡管簡單,但無法有效處理新詞、變體詞等[5]。因此,GATE提供基于規(guī)則的實體識別引擎(java annotation patterns engine,JAPE)。JAPE的功能是建立規(guī)則庫,用正則表達式匹配文本中的信息并作好標注,用于實現分詞、分句和較準確的命名實體識別。JAPE表現為一組規(guī)則語法文件,這個語法文件可以經過GATE里提供的一個JAPECompiler轉換成一個標準的PR。一個JAPE語法文件包括若干個片(Phase),每個Phase由若干個模式/行為規(guī)則(rule)組成。系統(tǒng)運行時,這些片段順次作用,針對標注形成級聯(lián)的有限狀態(tài)轉換器。每條rule由左側和右側兩部分組成。左側部分(1efthand side,LHS)是一個包含正則表達式操作符的標注模式。每條規(guī)則的右側部分(right hand side,RHS)包含了標注集操作描述。與左側部分匹配上的標注集將會按照右側的操作執(zhí)行。
2.2.2 JAPE規(guī)則實例構建命名實體是文本中基本的信息元素,是正確理解文本的基礎。命名實體識別就是要判斷一個文本串是否代表一個命名實體,并確定它的類別。在信息抽取研究中,命名實體識別是目前最有實用價值的一項技術。GATE提供了一些中文信息抽取中的時間、地點、稱謂、貨幣、URL和Email等識別規(guī)則。本文建立EMR患者性
別和年齡識別規(guī)則如下:
//性別識別規(guī)則
Rule:Sex
(
(Lookup.majorType一一sex}
):tag
一>
:tag.Sex一(kind— sex,rule— Sex)
//年齡識別規(guī)則
Rule:Age
(
{Token.kind一一number)
{Lookup.majorType= 一age)
):tag
~ >
:tag.Age一(kind— age,rule— Age)
對于新的類型的命名實體,都可以通過規(guī)則的建立來進行識別。在JAPE語法組織文件(main.jape)中增加新片段定義名,可以顯著提高標注效率。
2.3 專業(yè)分類詞表構建
GATE中的Gazetteer是由一系列包含時問、地點等基礎實體名稱的列表集合。GATE借助Gazet—teer完成部分語義標注工作。為了更為專業(yè)、精確地識別命名實體,本文對Gazetteer進行擴展。本文構建1O個神經內科常用藥物表、7個冠心病治療常用藥物表、1個神經解剖名詞表和1個中藥名詞表
(見表1)
2.4 中文醫(yī)學本體的導入
20世紀90年代以來,語義網技術的興起和發(fā)展促進了知識本體研究的不斷深入。知識工程中的本體是共享的、概念化的、明確的、形式化的規(guī)范說明嘲。其中,“共享”指所建立的概念可以在專業(yè)領域范圍內共同接受;“概念化”指對領域中的現象和事物進行抽象建模;“規(guī)范”是對領域中概念或知識第4期李毅等:中文電子病歷的信息抽取研究進行限制與約束;“明確”指概念的類型、概念問的關聯(lián)與約束是顯性的、確定的;“形式化”指描述本體
的、無歧義的自然語言和人工語言具有一定的表達形式。根據本體的定義,可以用概念、關系、函數、公理進行限制與約束;“明確”指概念的類型、概念問的關聯(lián)與約束是顯性的、確定的;“形式化”指描述本體的、無歧義的自然語言和人工語言具有一定的表達形式。根據本體的定義,可以用概念、關系、函數、公理和實例等5個基本的建模元語(Modeling Primitive) 描述特定的領域本體。將已有的神經信息學本體導人GATE平臺。該本體符合W3C OWL
(Web Ontology Language)規(guī)范,包括神經科學、神經疾病和中醫(yī)腦病的概念、關系和實例(見圖1、2)。
2.5 語義標注和信息抽取結果
通過構建命名實體識別規(guī)則,建立分類詞表和導人中文醫(yī)學領域本體,可以完成EMR文檔集的自動語義標注(見圖3),也可以進行新的標識或已有標識的修正,從而在語義標識基礎上實現語義信息抽取,并對結構化的信息抽取結果進行統(tǒng)計分析。
2.5.1 患者性別和年齡特征信息抽取通過對患、者性別和年齡特征的抽取可以得出EMR文檔集中腦梗死患者的性別和年齡分布狀況。信息抽取和統(tǒng)計分析結果(見圖4)顯示,82例患者中,男性59例,女性23例(男女比例為2.6:1);
H 8 6 4年齡最大87歲,最小1歲,平均值為64.76歲,標準差一15.702;5O歲以上73例(占全部病歷數的89.O2 ),5O 歲以下9例(占全部病歷數的1O.88 )。2 O
2.5.2 腦梗死疾病治療用藥特征信息抽取本文以神經系統(tǒng)解剖結構、神經系統(tǒng)疾病治療用藥、冠心病治療用藥以及中醫(yī)用藥為主題,進行EMR文本特征提取。提取的特征項的主要類型或次要類型包括:
minorType=NeuSysAna(:~O經系統(tǒng)解剖)
majorType=neurodrugs(神經疾病治療用藥)
majorType=heartdrugs(冠心病治療用藥)
m inorType= TCM — Drug(中醫(yī)用藥)。
對抽取結果進行分析,可以得到82份EMR的用藥情況。
其中,腦梗死治療用藥有7類:① 解熱鎮(zhèn)痛抗炎藥(阿司匹林);② 影響腦血管、腦代謝及促智藥(奧拉西坦、奧扎格雷鈉、丁苯酞、金納多、血塞通、銀杏葉提取物、恩必普、阿米三嗪蘿巴新、克林澳、尼莫地平、鼠神經生長因子、依達拉奉、阿魏酸鈉、吡拉西坦、氟桂利嗪、葛根素、桂哌齊特);③抗癲癇藥(卡馬西平、妥泰);④ 抗抑郁癥藥(阿米替林、西酞普蘭);⑤ 抗精神病藥(奧氮平、氟哌啶醇、奮乃靜);⑥鎮(zhèn)靜、催眠及抗驚厥藥(魯米那、苯巴比妥);⑦ 中樞興奮藥(洛貝林、尼可剎米)。冠心病治療用藥有5類:① 鈣通道阻滯劑(硝苯地平、地爾硫卓);② 調整血脂藥物
(辛伐他汀、洛伐他汀);③ 硝酸酯制劑(硝酸甘油);④ 溶血栓藥物(尿激酶、肝素、華法令);⑤ 抗血小板藥物(阿斯匹林)。在82份病歷中,中藥銀杏葉和丹參用得最多;有兩份被診斷為中風(中經絡)并結合中藥治療的病歷,分別用到了17種中藥和14種中藥。
2.6 討論
為了全面掌握疾病發(fā)生、發(fā)展和預后的規(guī)律性,臨床上需要對患者的病歷進行統(tǒng)計分析。但是通過人工閱讀和統(tǒng)計的病歷分析費時費力。本文通過基于GATE的EMR信息抽取,得到了有關腦梗死患者性別和年齡分布情況以及治療用藥一般性規(guī)律的知識。信息抽取的整個過程是經計算機“閱讀”而完成的。雖然這些從82篇EMR文檔中得到的知識
需要領域專家的審定,然而對于計算機來說,這些知識確實是新的知識。如果文檔集數量足夠大,在領域專家的參與下,通過基于本體的EMR信息抽取進行知識發(fā)現是可行的。而且,利用本體就可以根據用戶的需求,在EMR未經任何標引的情況下進行面向主題的文本特征提取。例如,針對82篇EMR文檔集,可以將主題確定為腦梗死發(fā)生的危險性分析、腦梗死的定位診斷、腦梗死合并其它病癥時的聯(lián)合用藥等。
3 結束語
自然語言理解和本體的理論和技術手段有效地改善了計算機對文本的“理解”能力。在此基礎上,醫(yī)務人員可以根據需要在計算機的輔助下對EMR進行信息抽取和統(tǒng)計分析,從而提高知識挖掘的效率。
參考文獻
[1] SIEFKES C,SINIAKOV P.An overview and classification of adaptive approaches to information extraction[J].Journal on Data Semantics IV.2005,3730(4):171-212.
[2] CROWLEY R,CHAVAN G,MITCHELL K,et a1.cATIE end User manual(Phase 2 Version 2.O).https://eabig.nci.nih.gov/tools/caties.(2009—8—24)
[3] CUNNINGHAM H,MAYNARD D,BONTCHEVA K,et a1.GATE:A framework and graphical development environ—ment for robust NLP tools and applications[c].Philadelphia:Proceedings of the 40th Anniversary Meeting of the Assoeia—tion for Computational Linguistics.2002:168—175.
[4] cuNNINGHAM H,MAYNARD D,B0NTcHEVA K。et a1.Developing language processing components with GATE Version 5(a User Guide).http://gate.ac.uk/sale/ta0/tao.pdf.(2009—8—24)
[5]KRAUTHAM M ER M . NENADIC G.TerTn identm catiOn in the biomedical literature[J].Journal of Biomedical Informat—ies,2004,37(6):512-526.
[6]STUDER R,BENJAMINS V R。FENSEL D.Knowledge engi—neering,principles and methods[J].Data and Knowledge En—gineering,1998,25(1—2):16卜197.
[7]PEREZ A G,BENJAMINS V R.Overview of knowledge sha-ring and reuse com ponents: ontologies and problem solving methods[c].In:Benjamins V R,Chandrasekaran B,Gomez-Perez A,et a1.Proceedings of the IJCAI 99 workshop on On·tologies and Problem Solving M ethods (KRR5),Stockholm ,Sweden。1999,1—15.http://ftp.informatik.rwth-aachen.de/Pub1ications/CEUR—W S/Vol一18/1-gomez.pdf.(2009-8—24)
(收稿:2009-09—03 修回:2009—10—30)
- 1門急診電子處方的使用及缺陷分析
- 22012年,醫(yī)生工作站已勢在必行
- 3對精神科電子病歷的探討,來看同行業(yè)電子病歷的發(fā)展
- 4電子病歷系統(tǒng)的信息整合
- 5O racle X M L D B和D B 2 p ure X M L在
- 6電子病歷(EMR)集成展現的設計與實現
- 7關于病歷檔案“雙軌制’’管理的探討
- 81994-2009年我國電子病歷文獻計量學分析
- 9醫(yī)院HIS系統(tǒng)的電子處方與藥品管理新模式的討論
- 10基于COM方式的臨床路徑系統(tǒng)設計與實現
- 11衛(wèi)生法教學案例素材的收集與應用
- 12甲型H I N 1流感電子病歷與手寫病歷規(guī)范化比較
- 13電子病歷質控方法的改進與作用
- 14基于電子病歷系統(tǒng)的臨床路徑管理應用研究
- 15電子病歷表現在臨床研究的元數據概念
- 16醫(yī)療衛(wèi)生部:加強醫(yī)院信息化建設
- 17電子病歷在我國發(fā)展所存在的問題
- 18門診收費管理系統(tǒng)的醫(yī)生工作站應用與體會
- 19護理電子病歷系統(tǒng)的開發(fā)與應用
- 203月份公司成功簽約伊旗衛(wèi)生局全民體檢項目
- 21構建基于“軍衛(wèi)一號"的電子病歷費用審核流程
- 22PDA在臨床護理中的應用體會
- 23海南省推行電子病歷
- 24基于片段和標簽的口腔專科電子病歷模板的設計與應用
- 25試論門診醫(yī)生工作站上線
- 26門診收費管理系統(tǒng)、電子病歷與醫(yī)生工作站
- 27電子病歷與病人健康檔案數據交換的研究
- 28電子病案模版客戶定制技術研究
- 29住院醫(yī)生工作站系統(tǒng)
- 30醫(yī)院門診收費管理系統(tǒng)特色
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓