[말빛 발견] 말뭉치/이경우 어문팀장

[말빛 발견] 말뭉치/이경우 어문팀장

이경우 기자
입력 2017-11-15 23:34
수정 2017-11-30 15:51
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0
이미지 확대
이경우 어문팀장
이경우 어문팀장
‘말뭉치’는 ‘말’과 ‘뭉치’로 이루어진 단어다. ‘말’도 ‘뭉치’도 낯설지 않아 ‘말뭉치’도 친근하게 다가온다. 말이 뭉쳐 있거나 모여 있는 상태이겠거니 짐작하게 된다.

‘말뭉치’는 본래 우리말 어휘 속에 들어 있던 말은 아니다. 영어 ‘코퍼스’(corpus)를 우리말로 옮기는 과정에서 생겨난 말이다. 조금은 어림잡을 수 있는 형태로 만들어졌다. 많은 전문용어들이 외국어 그대로이거나 어려운 말들로 이뤄진 것과 비교된다.

언어학에서 ‘말뭉치’는 ‘컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료’를 뜻한다. 즉 언어 자료를 전산화한 것이 ‘말뭉치’다. 크기는 ‘어절’로 나타낸다. ‘어절’은 문장을 구성하는 각각의 마디다. 우리말에서 띄어쓰기를 하는 단위와 일치한다. ‘나는 슬퍼서 울었다’는 3어절로 이루어진 문장이다.

인공지능의 시대에 접어들면서 말뭉치는 더욱 중요해졌다. 인공지능의 바탕에 언어가 있기 때문이다. 말뭉치는 컴퓨터가 언어를 이해하는 핵심이기도 하다.

우리나라는 ‘21세기 세종계획’이란 이름으로 1998년부터 10년간 말뭉치 구축 사업을 벌였다. 이때 2억 어절의 말뭉치를 구축했다. 이 분야에서 선발 주자였다. 이후 중단됐다가 2018년부터 5년간 155억 어절의 말뭉치를 다시 구축한다. 우리가 중단했던 사이 미국은 200억, 일본은 100억 어절을 구축했다.

wlee@seoul.co.kr
2017-11-16 29면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
10월10일을 임시공휴일로 지정해야할까요?
오는 10월 개천절(3일)과 추석(6일), 한글날(9일)이 있는 기간에 10일(금요일)을 임시공휴일로 지정시 열흘간의 황금연휴가 가능해 기대감이 커지고 있다. 하지만 정부는 아직까지는 이를 검토하지 않고 있다고 선을 그었다. 다음 기사를 읽어보고 황금연휴에 대한 당신의 의견을 남겨주세요.
1. 10일을 임시공휴일로 지정해야한다.
2. 10일을 임시공휴일로 지정할 필요없다.
광고삭제
광고삭제
위로