0人評分過此書
한국어 정보학 韓語資訊學
머리말
이 책은 옛 문헌 자료를 대상으로 하여 연구하는 연구자들이 자신의 연구에 필요한 어휘, 혹은 어절, 구문 등등을 연구자들이 원하는 자료에서 따로 가려내고 뽑아 다양한 연구에 활용할 수 있도록 원문을 전산 처리하는 방법과 연구자의 육안으로 식별하기 어렵거나 확인되지 않는 문자와 부호들을 확인할 수 있는 영상처리를 활용한 정보 처리법을 소개한 것이다.
한국어의 전산학 처리를 위해서는 형태소, 단어, 어절, 구, 문장 등 한국어의 각 문법 단위의 목록을 획득하고, 각 문법 단위들의 분포와 기능을 체계적으로 정리하는 일이 뒷받침되어야 한다. 이 일은 다양한 언어 자료를 검토함으로써 가능한데, 이러한 목적으로 만들어진 언어 자료의 집합을 말뭉치라고 한다. 그러나 단순히 여러 가지의 자료들을 모아 놓거나 배열해 놓았다고 해서 좋은 말뭉치가 되는 것은 아니다. 좋은 말뭉치란 각 연구자, 혹은 정보를 필요로 하는 이의 구미에 맞게 가공되어 있을 때 가장 좋은 말뭉치가 되는 것이다. 특히 국어학에서 필요로 하는 말뭉치는 언어의 변화 양상과 다양한 특성을 제공해 줄 수 있도록 전산 처리된 말뭉치일 것은 두 말할 나위 없다.
현재 국어학계에서는 세종사업의 말뭉치와 국립국어연구원에서 구축한 말뭉치, 그리고 한국과학기술원, 고려대학교, 연세대학교 등에서 구축한 방대한 양의 말뭉치를 이용하고 있다. 오류 검증에 관한 언급은 남겨두더라도 이들 말뭉치들이 전산학, 또는 정보 처리학에 유용한 인코딩(encoding)으로 처리되어 있어 사전 편찬이나 언어학, 음성학 등의 통계 수치나 검색 정보 추출 등 양적 자료 분석에 주로 사용되고 있다.
그런데 옛 문헌 자료, 또는 국어사 연구에서 이러한 통계 수치나 검색 정보 추출 등의 양적 자료 분석도 중요하지만 실질적으로 요구되는 정보는 이보다 훨씬 정밀하고 세밀한 질적 자료 분석이 필요한 것들이 훨씬 더 많이 요구된다. 가령, 말뭉치 속에서 특정 어휘와 원문의 한자 대응, 혹은 구문과 한자 원문의 병행 배열, 방점 처리 정보, 탈각 및 오각 정보, 시간적 변화를 동반한 정보, 어휘 변화를 동반한 정보 등등이 그것이다. 그러나 이미 상당한 시간과 재원을 들여 구축한 원시 말뭉치를 다시 주석 말뭉치로 구축하는 일은 결코 쉽거나 만만한 일이 아니다. 주석 말뭉치로 구축하기 위해서는 말뭉치를 구축하는 자가 주석을 완벽하게 할 수 있는 자, 즉 상당한 수준의 연구력을 지닌 자라야 한다는 점이 전제될 때 가능한 일이다. 그러므로 옛 문헌 자료, 또는 국어사 연구를 위해서는 원시 말뭉치를 구축할 당시부터 원문 입력의 오류를 최소화함과 동시에 질적 연구가 가능하도록 말뭉치를 구축하는 것이 마땅하다.
필자는 이와 같은 질적 자료 분석을 위한 정보 처리 방법을 끊임없이 고민해 왔으며 그 결과 2001년부터 현재까지 약 20여 편의 논저들을 통해 그 방안을 지속적으로 모색해 왔다. 이에 그 정보 처리 기법들을 이 책을 통해 여러 연구자들에게 소개하고자 한 것이다.
이 책은 크게 ‘한국어 자료의 전산 처리’, ‘말뭉치 구축과 활용’, ‘영상처리를 활용한 정보 처리’라는 3가지 정보 처리법으로 나누어져 있다. 이러한 정보 처리 기법을 토대로 기술된 책은 1장에서 정보와 정보 처리와 정보 처리 프로그램을 중심으로 한국어 정보학의 기초에 대해 설명하였다. 2장에서는 형태소 분석 말뭉치의 구조와 한국어 자료와 말뭉치 가공을 중심으로 전산 형태론과 말뭉치에 대해 논의하였다. 3장에서는 중세한국어 연구를 위한 전산 처리 방법과 음운현상 교육을 위한 전산 처리 방법, 그리고 사회방언 연구를 위한 전산 처리 방법 등 여러 가지 한국어 자료의 전산 처리 방안을 소개하고자 노력하였다. 4장에서는 원문과 어휘 빈도 산출 말뭉치 구축 방법과 한국어의 통시적 말뭉치 구축과 활용, 그리고 연구자 중심의 말뭉치 구축과 활용법 등 연구자가 원하는 방향으로의 말뭉치를 구축하고 이를 활용하는 방법을 체계적으로 제시하였다. 5장에서는 한컴오피스 글을 활용한 정보 처리 기법과 Window 그림판을 활용한 정보 처리 기법, Adobe Photoshop을 활용한 정보 처리 기법, 영상 처리 장비를 활용한 정보 처리 기법 등 영상처리를 활용한 정보 처리법에 대해 소개하였다. 특히 5장의 내용들은 필자가 처음으로 공개하는 정보 처리법으로 최근 학계에서 해결하지 못했던 각필 문자 및 부호들을 밝히는 데 사용했던 정보 처리법이기도 하다. 마지막으로 이들 전산 처리 기법과 정보 처리 기법을 활용하여 학계에 발표했던 논문 세 편을 부록으로 함께 실어 정보 처리 기법의 실전을 옛 문헌 자료 연구자들에게 소개하고자 하였다.
이 책이 나오기까지 많은 분들의 도움을 받았다. 학문에 입문하고부터 지금까지, 수많은 자료 제공과 조언을 아끼지 않으시는 남권희 선생님과 학문적으로 무척 부족했던 시기에 제자로 거두워 길러 주셨던 학부 선생님들께 감사의 말씀을 드린다. 그리고 힘들고 어려웠던 말뭉치 구축 과정들을 함께 견뎌 왔던 후배 교수 김남경 선생과 영상 장비 활용 정보 처리의 기법을 제공해 준 한국생산기술원의 선임연구원 김형태 선생님께도 감사 드린다. 특히 이 책은 대구가톨릭대학교와 경인문화사의 지원이 없었다면 나올 수 없었다. 대구가톨릭대학교 2012년 교내연구비의 지원을 받았으며, 전문서적이 아님에도 불구하고 기꺼운 마음으로 출판을 할 수 있도록 추천과 지원을 아끼지 않은 경인문화사 김환기 총괄이사님과 한정희 사장님께 사의를 표한다. 또한 책이 제 모습을 찾을 수 있도록 많은 배려를 해 주신 편집부팀에게도 감사드린다. 끝으로 언제나 함께 있어 마음의 곁이 되어 준 누군가에게 진심으로 감사의 뜻을 전한다.
2017년 6월
윤설방에서 저자 씀
(以下為AI翻譯,僅供參考)
前言
本書旨在介紹一種資訊處理方法,讓研究古文獻資料的研究者,能夠將其研究所需的詞彙、詞組、句法等,從所需資料中單獨挑選和提取出來,並將原文進行電腦化處理,以應用於各種研究;此外,還介紹了一種利用影像處理來識別研究者肉眼難以辨識或無法確認的文字和符號的資訊處理方法。
要對韓語進行電腦學處理,必須先獲得形態素、單詞、詞組、短語、句子等韓語各語法單位的列表,並系統性地整理各語法單位的分佈和功能。這項工作需要透過檢閱各種語言資料來實現,而為此目的所建立的語言資料集合稱為語料庫。然而,僅僅將各種資料收集或排列起來,並不能成為一個好的語料庫。一個好的語料庫,是指能夠根據各研究者或資訊需求者的喜好進行加工時,才能成為最好的語料庫。尤其在國語學中所需的語料庫,無疑應該是經過電腦化處理,能夠提供語言變化樣貌和各種特性的語料庫。
目前,國語學界正在使用世宗計畫的語料庫、國立國語研究院建構的語料庫,以及韓國科學技術院、高麗大學、延世大學等機構建構的龐大語料庫。即使不提及錯誤驗證,這些語料庫都以對電腦學或資訊處理學有用的編碼 (encoding) 進行處理,主要用於詞典編纂、語言學、語音學等領域的統計數據或檢索資訊提取等量化資料分析。
然而,在古文獻資料或國語史研究中,儘管這種統計數據或檢索資訊提取等量化資料分析也很重要,但實際上所需的資訊,更多的是需要更為精確和細緻的質化資料分析。例如,語料庫中特定詞彙與原文漢字的對應、或句法與漢字原文的並行排列、聲調符號處理資訊、脫落及誤寫資訊、伴隨時間變化的資訊、伴隨詞彙變化的資訊等等。然而,要將已投入相當時間和資源建構的原始語料庫重新建構為注釋語料庫,絕非易事。要建構注釋語料庫,前提是建構語料庫的人必須能夠完美地進行注釋,也就是必須具備相當水準的研究能力。因此,為了古文獻資料或國語史研究,理應從建構原始語料庫時起,就最大限度地減少原文輸入的錯誤,同時建構能夠進行質化研究的語料庫。
筆者不斷思考這種用於質化資料分析的資訊處理方法,並從 2001 年至今,透過約 20 餘篇論文著述持續探索其方案。因此,本書旨在向各位研究者介紹這些資訊處理技術。
本書大致分為「韓語資料的電腦化處理」、「語料庫的建構與應用」、「利用影像處理的資訊處理」三種資訊處理方法。在這些資訊處理技術的基礎上,本書在第 1 章以資訊、資訊處理和資訊處理程式為中心,解釋了韓語資訊學的基礎。第 2 章以形態素分析語料庫的結構、韓語資料和語料庫加工為中心,討論了電腦形態學和語料庫。第 3 章努力介紹了各種韓語資料的電腦化處理方案,包括中古韓語研究的電腦化處理方法、語音現象教育的電腦化處理方法,以及社會方言研究的電腦化處理方法等。第 4 章系統性地提出了建構與應用研究者所需語料庫的方法,包括原文與詞彙頻率計算語料庫的建構方法、韓語歷時語料庫的建構與應用,以及研究者中心語料庫的建構與應用方法等。第 5 章介紹了利用影像處理的資訊處理方法,包括利用 Hancom Office HWP 的資訊處理技術、利用 Window 小畫家的資訊處理技術、利用 Adobe Photoshop 的資訊處理技術,以及利用影像處理設備的資訊處理技術等。特別是第 5 章的內容是筆者首次公開的資訊處理方法,也是最近學界未能解決的筆劃文字及符號的資訊處理方法。最後,本書還附錄了三篇利用這些電腦化處理技術和資訊處理技術在學術界發表的論文,旨在向古文獻資料研究者介紹資訊處理技術的實踐應用。
本書的問世得到了許多人的幫助。從學術入門至今,南權熙老師一直不吝提供無數資料和建議;在學術能力非常不足的時期,收我為弟子並培養我的大學老師們,謹致謝忱。此外,我還要感謝與我一同經歷艱辛語料庫建構過程的後輩教授金南慶老師,以及提供影像設備應用資訊處理技術的韓國生產技術院資深研究員金亨泰老師。特別是,如果沒有大邱天主教大學和景仁文化社的支援,本書就不可能問世。本書獲得了大邱天主教大學 2012 年校內研究經費的支援,並且即使不是專業書籍,景仁文化社的金煥基總監和韓政熙社長仍樂意推薦並大力支持出版,對此我深表謝意。同時,也感謝編輯部團隊為本書的成形所付出的諸多努力。最後,我衷心感謝一直陪伴在身邊、作為我心靈依託的某人。
2017 年 6 月
作者於潤雪房筆
이 책은 옛 문헌 자료를 대상으로 하여 연구하는 연구자들이 자신의 연구에 필요한 어휘, 혹은 어절, 구문 등등을 연구자들이 원하는 자료에서 따로 가려내고 뽑아 다양한 연구에 활용할 수 있도록 원문을 전산 처리하는 방법과 연구자의 육안으로 식별하기 어렵거나 확인되지 않는 문자와 부호들을 확인할 수 있는 영상처리를 활용한 정보 처리법을 소개한 것이다.
한국어의 전산학 처리를 위해서는 형태소, 단어, 어절, 구, 문장 등 한국어의 각 문법 단위의 목록을 획득하고, 각 문법 단위들의 분포와 기능을 체계적으로 정리하는 일이 뒷받침되어야 한다. 이 일은 다양한 언어 자료를 검토함으로써 가능한데, 이러한 목적으로 만들어진 언어 자료의 집합을 말뭉치라고 한다. 그러나 단순히 여러 가지의 자료들을 모아 놓거나 배열해 놓았다고 해서 좋은 말뭉치가 되는 것은 아니다. 좋은 말뭉치란 각 연구자, 혹은 정보를 필요로 하는 이의 구미에 맞게 가공되어 있을 때 가장 좋은 말뭉치가 되는 것이다. 특히 국어학에서 필요로 하는 말뭉치는 언어의 변화 양상과 다양한 특성을 제공해 줄 수 있도록 전산 처리된 말뭉치일 것은 두 말할 나위 없다.
현재 국어학계에서는 세종사업의 말뭉치와 국립국어연구원에서 구축한 말뭉치, 그리고 한국과학기술원, 고려대학교, 연세대학교 등에서 구축한 방대한 양의 말뭉치를 이용하고 있다. 오류 검증에 관한 언급은 남겨두더라도 이들 말뭉치들이 전산학, 또는 정보 처리학에 유용한 인코딩(encoding)으로 처리되어 있어 사전 편찬이나 언어학, 음성학 등의 통계 수치나 검색 정보 추출 등 양적 자료 분석에 주로 사용되고 있다.
그런데 옛 문헌 자료, 또는 국어사 연구에서 이러한 통계 수치나 검색 정보 추출 등의 양적 자료 분석도 중요하지만 실질적으로 요구되는 정보는 이보다 훨씬 정밀하고 세밀한 질적 자료 분석이 필요한 것들이 훨씬 더 많이 요구된다. 가령, 말뭉치 속에서 특정 어휘와 원문의 한자 대응, 혹은 구문과 한자 원문의 병행 배열, 방점 처리 정보, 탈각 및 오각 정보, 시간적 변화를 동반한 정보, 어휘 변화를 동반한 정보 등등이 그것이다. 그러나 이미 상당한 시간과 재원을 들여 구축한 원시 말뭉치를 다시 주석 말뭉치로 구축하는 일은 결코 쉽거나 만만한 일이 아니다. 주석 말뭉치로 구축하기 위해서는 말뭉치를 구축하는 자가 주석을 완벽하게 할 수 있는 자, 즉 상당한 수준의 연구력을 지닌 자라야 한다는 점이 전제될 때 가능한 일이다. 그러므로 옛 문헌 자료, 또는 국어사 연구를 위해서는 원시 말뭉치를 구축할 당시부터 원문 입력의 오류를 최소화함과 동시에 질적 연구가 가능하도록 말뭉치를 구축하는 것이 마땅하다.
필자는 이와 같은 질적 자료 분석을 위한 정보 처리 방법을 끊임없이 고민해 왔으며 그 결과 2001년부터 현재까지 약 20여 편의 논저들을 통해 그 방안을 지속적으로 모색해 왔다. 이에 그 정보 처리 기법들을 이 책을 통해 여러 연구자들에게 소개하고자 한 것이다.
이 책은 크게 ‘한국어 자료의 전산 처리’, ‘말뭉치 구축과 활용’, ‘영상처리를 활용한 정보 처리’라는 3가지 정보 처리법으로 나누어져 있다. 이러한 정보 처리 기법을 토대로 기술된 책은 1장에서 정보와 정보 처리와 정보 처리 프로그램을 중심으로 한국어 정보학의 기초에 대해 설명하였다. 2장에서는 형태소 분석 말뭉치의 구조와 한국어 자료와 말뭉치 가공을 중심으로 전산 형태론과 말뭉치에 대해 논의하였다. 3장에서는 중세한국어 연구를 위한 전산 처리 방법과 음운현상 교육을 위한 전산 처리 방법, 그리고 사회방언 연구를 위한 전산 처리 방법 등 여러 가지 한국어 자료의 전산 처리 방안을 소개하고자 노력하였다. 4장에서는 원문과 어휘 빈도 산출 말뭉치 구축 방법과 한국어의 통시적 말뭉치 구축과 활용, 그리고 연구자 중심의 말뭉치 구축과 활용법 등 연구자가 원하는 방향으로의 말뭉치를 구축하고 이를 활용하는 방법을 체계적으로 제시하였다. 5장에서는 한컴오피스 글을 활용한 정보 처리 기법과 Window 그림판을 활용한 정보 처리 기법, Adobe Photoshop을 활용한 정보 처리 기법, 영상 처리 장비를 활용한 정보 처리 기법 등 영상처리를 활용한 정보 처리법에 대해 소개하였다. 특히 5장의 내용들은 필자가 처음으로 공개하는 정보 처리법으로 최근 학계에서 해결하지 못했던 각필 문자 및 부호들을 밝히는 데 사용했던 정보 처리법이기도 하다. 마지막으로 이들 전산 처리 기법과 정보 처리 기법을 활용하여 학계에 발표했던 논문 세 편을 부록으로 함께 실어 정보 처리 기법의 실전을 옛 문헌 자료 연구자들에게 소개하고자 하였다.
이 책이 나오기까지 많은 분들의 도움을 받았다. 학문에 입문하고부터 지금까지, 수많은 자료 제공과 조언을 아끼지 않으시는 남권희 선생님과 학문적으로 무척 부족했던 시기에 제자로 거두워 길러 주셨던 학부 선생님들께 감사의 말씀을 드린다. 그리고 힘들고 어려웠던 말뭉치 구축 과정들을 함께 견뎌 왔던 후배 교수 김남경 선생과 영상 장비 활용 정보 처리의 기법을 제공해 준 한국생산기술원의 선임연구원 김형태 선생님께도 감사 드린다. 특히 이 책은 대구가톨릭대학교와 경인문화사의 지원이 없었다면 나올 수 없었다. 대구가톨릭대학교 2012년 교내연구비의 지원을 받았으며, 전문서적이 아님에도 불구하고 기꺼운 마음으로 출판을 할 수 있도록 추천과 지원을 아끼지 않은 경인문화사 김환기 총괄이사님과 한정희 사장님께 사의를 표한다. 또한 책이 제 모습을 찾을 수 있도록 많은 배려를 해 주신 편집부팀에게도 감사드린다. 끝으로 언제나 함께 있어 마음의 곁이 되어 준 누군가에게 진심으로 감사의 뜻을 전한다.
2017년 6월
윤설방에서 저자 씀
(以下為AI翻譯,僅供參考)
前言
本書旨在介紹一種資訊處理方法,讓研究古文獻資料的研究者,能夠將其研究所需的詞彙、詞組、句法等,從所需資料中單獨挑選和提取出來,並將原文進行電腦化處理,以應用於各種研究;此外,還介紹了一種利用影像處理來識別研究者肉眼難以辨識或無法確認的文字和符號的資訊處理方法。
要對韓語進行電腦學處理,必須先獲得形態素、單詞、詞組、短語、句子等韓語各語法單位的列表,並系統性地整理各語法單位的分佈和功能。這項工作需要透過檢閱各種語言資料來實現,而為此目的所建立的語言資料集合稱為語料庫。然而,僅僅將各種資料收集或排列起來,並不能成為一個好的語料庫。一個好的語料庫,是指能夠根據各研究者或資訊需求者的喜好進行加工時,才能成為最好的語料庫。尤其在國語學中所需的語料庫,無疑應該是經過電腦化處理,能夠提供語言變化樣貌和各種特性的語料庫。
目前,國語學界正在使用世宗計畫的語料庫、國立國語研究院建構的語料庫,以及韓國科學技術院、高麗大學、延世大學等機構建構的龐大語料庫。即使不提及錯誤驗證,這些語料庫都以對電腦學或資訊處理學有用的編碼 (encoding) 進行處理,主要用於詞典編纂、語言學、語音學等領域的統計數據或檢索資訊提取等量化資料分析。
然而,在古文獻資料或國語史研究中,儘管這種統計數據或檢索資訊提取等量化資料分析也很重要,但實際上所需的資訊,更多的是需要更為精確和細緻的質化資料分析。例如,語料庫中特定詞彙與原文漢字的對應、或句法與漢字原文的並行排列、聲調符號處理資訊、脫落及誤寫資訊、伴隨時間變化的資訊、伴隨詞彙變化的資訊等等。然而,要將已投入相當時間和資源建構的原始語料庫重新建構為注釋語料庫,絕非易事。要建構注釋語料庫,前提是建構語料庫的人必須能夠完美地進行注釋,也就是必須具備相當水準的研究能力。因此,為了古文獻資料或國語史研究,理應從建構原始語料庫時起,就最大限度地減少原文輸入的錯誤,同時建構能夠進行質化研究的語料庫。
筆者不斷思考這種用於質化資料分析的資訊處理方法,並從 2001 年至今,透過約 20 餘篇論文著述持續探索其方案。因此,本書旨在向各位研究者介紹這些資訊處理技術。
本書大致分為「韓語資料的電腦化處理」、「語料庫的建構與應用」、「利用影像處理的資訊處理」三種資訊處理方法。在這些資訊處理技術的基礎上,本書在第 1 章以資訊、資訊處理和資訊處理程式為中心,解釋了韓語資訊學的基礎。第 2 章以形態素分析語料庫的結構、韓語資料和語料庫加工為中心,討論了電腦形態學和語料庫。第 3 章努力介紹了各種韓語資料的電腦化處理方案,包括中古韓語研究的電腦化處理方法、語音現象教育的電腦化處理方法,以及社會方言研究的電腦化處理方法等。第 4 章系統性地提出了建構與應用研究者所需語料庫的方法,包括原文與詞彙頻率計算語料庫的建構方法、韓語歷時語料庫的建構與應用,以及研究者中心語料庫的建構與應用方法等。第 5 章介紹了利用影像處理的資訊處理方法,包括利用 Hancom Office HWP 的資訊處理技術、利用 Window 小畫家的資訊處理技術、利用 Adobe Photoshop 的資訊處理技術,以及利用影像處理設備的資訊處理技術等。特別是第 5 章的內容是筆者首次公開的資訊處理方法,也是最近學界未能解決的筆劃文字及符號的資訊處理方法。最後,本書還附錄了三篇利用這些電腦化處理技術和資訊處理技術在學術界發表的論文,旨在向古文獻資料研究者介紹資訊處理技術的實踐應用。
本書的問世得到了許多人的幫助。從學術入門至今,南權熙老師一直不吝提供無數資料和建議;在學術能力非常不足的時期,收我為弟子並培養我的大學老師們,謹致謝忱。此外,我還要感謝與我一同經歷艱辛語料庫建構過程的後輩教授金南慶老師,以及提供影像設備應用資訊處理技術的韓國生產技術院資深研究員金亨泰老師。特別是,如果沒有大邱天主教大學和景仁文化社的支援,本書就不可能問世。本書獲得了大邱天主教大學 2012 年校內研究經費的支援,並且即使不是專業書籍,景仁文化社的金煥基總監和韓政熙社長仍樂意推薦並大力支持出版,對此我深表謝意。同時,也感謝編輯部團隊為本書的成形所付出的諸多努力。最後,我衷心感謝一直陪伴在身邊、作為我心靈依託的某人。
2017 年 6 月
作者於潤雪房筆
- 出版地 : 韓國
- 語言 : 其他語文
評分與評論
請登入後再留言與評分