HOME > 문화·연예 > 종교·학술·한국사
필자의 다른기사 보기 인쇄하기 메일로 보내기 글자 크게 글자 작게
국립국어원, '인공지능 학습용 한국어 빅데이터' 2차 공개
일상 대화 음성, 상호 참조 분석, 신문 등 한국어 자료 빅데이터 8종
 
조장훈 기사입력  2021/03/30 [09:15]

국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 학습용 한국어 자료 8종(신규 5종, 수정 3종)을 3월 30일 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에서 공개한다고 밝혔다. 공개 자료는 ‘모두의 말뭉치’ 누리집에서 온라인 약정서를 작성하여 승인을 받으면 누구나 파일을 내려받아 이용할 수 있다.

 

▲ 공개 대상 자료 내역     © 국립국어원

 

국립국어원은 지난해 8월 ‘모두의 말뭉치’에서 한국어 빅데이터 자료인 인공지능 학습용 한국어 말뭉치 13종 18억 어절을 공개한 바 있다. 이번에 공개하는 자료는 새로 공개하는 자료 5종과 기존 공개 자료에서 내용을 추가하고 형식 오류를 수정한 3종의 자료로, 총 4백만 건의 자료와 900만 어절의 분석 자료로 구성되어 있다.

 

◇ 참여자 모두와 저작권 문제를 해결한 인공지능 한국어 학습 자료

 

이번에 새로 공개하는 자료는 2020년에 구축한 일상 대화 말뭉치 2,232건과 대화를 녹음한 음성 자료 500시간 분량, 2019년에 생산된 35개 매체의 신문 기사 63만여 건, 그리고 한국어의 특성을 정밀하게 분석한 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치 6백만 어절이다. 상호 참조 해결 말뭉치는 같은 대상을 가리키는 표현을 서로 연결(상호 참조)한 자료이고 무형 대용어 복원 말뭉치는 생략된 주어나 목적어 등을 복원한 자료이다.

 

음성까지 제공한 일상 대화 자료는 연령별, 지역별로 고르게 선정한 2,500여 명의 참여자와 모두 이용 허락 계약을 체결하여 구축한 자료여서 음성을 활용한 대화 시스템 개발 등 다양한 인공지능 서비스 개발과 한국어 음성 연구에 폭넓게 활용할 수 있는 좋은 공공 자료가 될 것이다. 그리고 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치는 기계가 인식하기 어려운 한국어의 특성을 심도 있게 분석한 자료로 한국어 인공지능 학습 및 개발에 중요한 역할을 할 것으로 기대된다.

 

인공지능에 필요한 전문적인 한국어 학습 자료 공급

 

이번에 새로 공개하는 자료는 수요는 많지만 구축에 많은 비용과 시간이 들고 한국어에 대한 전문적인 이해를 필요로 하기 때문에 기존에 구축된 자료의 양이 많지 않다. 따라서 이번 공개로 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업은 물론 대기업이나 관련 연구 기관 등에도 한국어 처리 기술을 한 단계 더 높이는 데 큰 도움이 될 것으로 보인다.

 

이번 공개 자료에는 새로 공개한 자료 이외에도 기존에 배포한 신문 자료와 구문 분석 말뭉치를 수정, 보완한 자료도 포함하였다. 그리고 2003년에 서울말 변화 양상을 연구할 목적으로 만들었던 ‘서울말 낭독체 발화 말뭉치’도 활용성을 높일 수 있도록 최근 구축하고 있는 말뭉치에 맞추어 형식과 내용을 다듬어 포함시켰다.

국립국어원 소강춘 원장은 “국립국어원은 앞으로 한국어 인공지능이 한국어다운 소통 능력을 갖출 수 있도록 전문적이고 분석적인 한국어 언어 자료를 지속적으로 구축, 공개하여 관련 학계 및 산업계에서 적극 활용할 수 있도록 지원할 계획이다.”라고 말했다.

 

문화체육관광부와 국립국어원은 2018년부터 한국어의 학습용 자료가 될 수 있는 전문적인 한국어 말뭉치를 본격적으로 구축하고 있으며 앞으로 보다 많은 수요 분석을 통하여 인공지능에게 필요한 한국어 말뭉치를 체계적으로 구축해 나갈 예정이다.


[나눔일보 = 조장훈 대표기자] 


주변의 따뜻한 이야기를 많은 이들에게 전하고 싶거나, 본인의 선행을 알려 뜻을 함께 할 분들을 널리 구한다면 언제든지 press@nanumilbo.com으로 알려주시기 바랍니다. 선행을 증빙할 사진이나 자료가 첨부되면 더 좋습니다. 자료는 특별히 정해진 형식이 없습니다. 문장력에 대한 부담은 갖지 않으셔도 됩니다. 저희 데스크의 수정보완을 거쳐 기사로 나갑니다. 본사의 추가 취재에 응할 수 있는 연락 전화번호는 꼭 필요합니다. 자료 검토 또는 추가 취재 결과, 보도에 부적합하다는 판단이 내려지면 보도되지 않을 수도 있습니다.

< 기사제보·독자투고, 취재요청 및 보도자료 > press@nanumilbo.com
 
트위터 미투데이 페이스북 요즘 공감
기사입력: 2021/03/30 [09:15]  최종편집: ⓒ nanumilbo
 
이 기사에 대한 독자의견 의견쓰기 전체의견보기
기사 내용과 관련이 없는 글, 욕설을 사용하는 등 타인의 명예를 훼손하는 글은 관리자에 의해 예고없이 임의 삭제될 수 있으므로 주의하시기 바랍니다.
닉네임 패스워드 도배방지 숫자 입력
제 목
내 용
1/13
광고
신우철 완도군수, 전남 자치단체장 호감도 조사 긍정률 63.58% 3위 / 오승국
[덕화만발'德華滿發']인생은 희극인가 비극인가 / 덕산
황성규 국토부 2차관, 취임 첫 현장 '인천국제공항 방문' / 강현아
대한민국 대표 에너지기업 脫탄소 동맹 '에너지얼라이언스' 출범 / 조영자
6․25 참전노병, 69년 만에 '화랑무공훈장' 되찾았다 / 조영자
[이정랑의 고전소통]산지무전(散地無戰) / 이정랑
서울사랑의열매-소리바다, 착한소비 협약 체결 통해 취약계층 위한 '수익금 모금' 진행 / 조영자
건보공단 사칭하는 '환급금안내 스미싱문자' 조심하세요 / 강현아
전재수 의원, 소비자중심 ‘전자상거래법’ 개정방안 토론회 개최 / 오승국
해양수산부, 스티로폼 부표 단계적으로 완전히 금지… '어장관리법 시행규칙 개정안' 입법예고 / 오승국
페이스북 카카오스토리 인스타그램