progress

점검 중

<모두의 말뭉치>
일부 기능 장애로 인하여 해당 신청이 불가능합니다.

최대한 빠르게 복구할 수 있도록 노력하겠습니다.

* 시스템 이용 장애 문의: 051-927-7111

닫기

말뭉치 소개

미래를 준비하는 소중한 우리말 자원

말뭉치(코퍼스, corpus)란 평소 우리가 쓰는 말이나 글을 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료입니다.

말뭉치를 구축하려면 신문 기사, 책, 일상 대화, 메신저 대화, 블로그나 게시판의 글 등의 언어 자료를 모아서 원저작자의 저작권 이용 허락 동의를 받은 후 컴퓨터가 읽을 수 있는 형태로 입력합니다. 그리고 이 언어 자료의 종류나 제목, 작성자, 출처 등 언어 자료의 특징이나 성격을 알려 주는 정보와 문단이나 문장의 경계를 알려 주는 형식 정보 등을 컴퓨터가 읽을 수 있도록 입력하면 말뭉치의 기본이라고 할 수 있는 원시 말뭉치가 됩니다.

원시 말뭉치에 품사 정보, 의미 정보, 문장 구성 정보 등 다양한 한국어 분석 정보를 입력하거나 하나의 글 안에서 같은 대상을 다른 표현(지시어 등)으로 나타낸 것을 연결하는 등의 과정을 거쳐서 고품질의 분석 말뭉치를 만듭니다. 말뭉치는 언어 연구·언어 교육뿐만 아니라 인공지능 기술 개발의 자원으로 활용됩니다. 특히, 인공지능 기술이 발전하면서 말뭉치에 대한 요구가 높아졌습니다.

1998년부터 '21세기 세종계획'이라는 국어 정보화 중장기 사업이 추진되어 국어 정보화 분야가 국어 정책의 한 축으로 자리 잡은 바 있습니다.

국어학과 컴퓨터공학 분야 연구자가 10년 동안 함께 모여 국어 정보 기반을 구축하였고, 그 당시 2억 어절 규모의 말뭉치를 구축·공개하였습니다. 그러나 21세기를 맞이하면서도 컴퓨터의 획기적인 성능 향상은 이루어지지 않아 데이터 구축도 주춤한 모습을 보였습니다.

그러던 중 2015년에 우리에게 익숙한 ‘알파고’로 대변되는 심층 학습(딥러닝) 기술이 발전하면서 인공지능 분야의 기술 발전이 급격히 이루어졌습니다. 또한 한국어 처리 분야에서도 컴퓨터가 학습할 수 있는 대량의 한국어 자료 확보가 중요해졌습니다.

한국어-한국수어 병렬 말뭉치는 민원 행정, 관광 등 다양한 분야에서 사용되는 한국어를 수어로 번역한 말뭉치입니다. 한국어와 이에 대응하는 한국수어 번역 영상, 수어의 의미 정보를 분석한 것으로 구성되어 있습니다.

특히 수어 문장에서 중요한 문법적 역할을 담당하는 입 모양, 눈썹의 움직임 등의 비수지 정보를 담고 있습니다. 한국어-한국수어 병렬 말뭉치는 한국어와 한국수어 간의 인공지능 번역 기술 개발을 촉진하여, 농인과 청인 사이의 의사소통의 장벽을 허무는 데 이바지할 것입니다.

말뭉치를 보면 알 수 있는 것들

  • 한국인이 가장 많이 쓰는 단어는 무엇인지?

  • 그 빈도는 시기적으로 어떻게 변화해 왔는지?

  • 해당 단어는 어떤 단어와 가장 관련이 높은지?

  • 국립국어원의 말뭉치 구축 사업은 우리나라가 인공지능의 한국어 처리 기술을 혁신하여 선도할 수 있도록 ‘한국어 말뭉치 상시 공급·활용 체계 구축’을 목표로 추진되었습니다. 2018년 기초 연구를 시작으로 2019년부터 말뭉치를 체계적으로 구축하고 있으며, 그 결과물을 배포 시스템인 ‘모두의 말뭉치(kli.korean.go.kr/corpus)’를 통해 2020년 8월 25일부터 공개하고 있습니다.
    최근에는 거대언어모델(LLM), 생성형 인공지능의 발전으로 한국언어문화를 잘 이해하고 한국어를 잘하는 인공지능을 개발하는 데 필수적인 고품질 말뭉치에 대한 요구가 높아졌습니다.
    국립국어원은 인공지능의 한국어 이해와 생성 능력을 키움으로써 우리 언어문화 자산의 경쟁력을 강화하도록 인공지능의 한국어 처리 기술 발전과 더불어 한국어 연구 및 인공지능 연구를 지원하는 품질 좋은 말뭉치를 <모두의 말뭉치>를 통해 지속적으로 공개할 계획입니다.