국립국어원, 인공지능 한국어 학습용 자료 공개

국립국어원, 인공지능 한국어 학습용 자료 공개

이경우 기자
입력 2020-08-27 12:38
수정 2020-08-27 12:52
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0

일상 대화, 웹, 신문, 서적 등 한국어 빅데이터 13종 18억 어절

‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
‘모두의 말뭉치’ 첫 화면. 국립국어원 제공
25일 13종 18억 어절 분량의 말뭉치가 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에 공개됐다.

국립국어원은 이번에 공개한 자료는 2018~19년 구축한 것으로, ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성하고 승인을 받으면 누구나 이용할 수 있다고 밝혔다.

이에 앞서 문화체육관광부와 국어원은 1998년부터 2007년까지 ‘21세기 세종계획’을 추진하며 약 2억 어절의 자료를 공개한 바 있다.

‘모두의 말뭉치’에는 최근 10년간의 신문 기사와 서적 2만 188종, 일상생활의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 들어 있다. 또한 컴퓨터가 한국어를 더 잘 이해할 수 있도록 형태, 구문, 의미, 개체 등 언어 단위별로 분석한 자료 1100만 어절도 담겨 있다. 한국어 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만건도 포함돼 있다.

이번 자료에서는 일상 대화, 메신저, 웹 문서 등 구어체의 비중을 높였는데, 특히 표준어뿐만 아니라 다양한 지역별, 연령별 대화 자료들도 포함됐다. 인공지능(AI) 스피커, 챗봇 등의 대화형 서비스가 늘어나는 추세를 반영한 것이다.

이에 따라 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업(스타트업·벤처기업)들이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다. 대기업이나 관련 연구기관 등도 다양한 서비스를 개발하는 데 도움을 받을 수 있다.

이번에 공개한 말뭉치는 한국어 빅데이터라고 할 수 있는데, 국어원은 10월 초 말뭉치 활용을 주제로 전문가 토론회를 개최한다.

이경우 전문기자 wlee@seoul.co.kr
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
가수 유승준의 한국비자발급 허용에 대한 당신의 생각은?
가수 유승준이 한국 입국비자 발급을 거부한 처분을 취소해 달라며 낸 세 번째 소송에서도 승소했다. 다만 이전처럼 주로스앤젤레스(LA) 총영사관이 법원 판단을 따르지 않고 비자 발급을 거부할 경우 한국 입국은 여전히 어려울 수 있다. 유승준의 한국입국에 대한 당신의 생각은?
1. 허용해선 안된다
2. 이젠 허용해도 된다
3. 관심없다.
광고삭제
광고삭제
위로