자연언어처리
자연언어처리
• 자연언어(natural language)
• 인간이 일상적으로 사용하는 언어
• 한국어, 영어, 일본어, 중국어, 프랑스어 등
• 인공언어(artificial language)와 대비됨
• 자연언어처리(natural language processing)
• 인간이 보통 쓰는 언어를 컴퓨터에 인식시켜서 처리하는 일
• 정보검색, 질의응답 시스템, 기계번역, 음성인식, 음성합성 등
자연언어처리 단계
• 자연언어처리 단계
• 형태소 분석
• 나는(나/NN+는/JX) 사과를(사과/NN+를/JX) 받았다(받다/VV+았/EP+다/EF)
• 통사 분석
• 나는(S) 사과를(O) 받았다(V)
• 의미 분석
• 사과 = apple
• 사과 = apology
• 화용 분석
• 나는 사과를 받았다. 그것은 맛있었다.
자연언어처리의 어려움
• 중의성(ambiguity)
• 형태소 중의성
• 나는: 나+는, 날다+는, 나다+는
• 통사 중의성
• 아름다운 영희의 엄마
• 의미 중의성
• 눈이 맑다, 눈이 좋다, 눈이 정확하다, 눈을 의식하다
• 화용 분석
• 실세계와의 연결
• 고양이가 쥐를 쫓는다. 그게 열심히 도망간다.
• 고양이가 쥐를 쫓는다. 그게 열심히 쫓아간다.
의미 분석
• 어의 중의성 해소(Word Sense Disambiguation)
• 중의성 어휘가 문맥에서 어떤 의미로 사용되었는지를 구분하는 작업
어의 중의성 해소의 필요성
• 자연언어는 본질적으로 많은 의미 중의성을 지니고 있기 때문에 정확한 언어 정보를 추출하여 이용하려면 어의 중의성 해소가 필요함
• 표준국어대사전에 실린 표제어 509,076개 중 24.37%(124,254개)가 중의성 어휘임(국립국어원, 2002)
• 기계번역이나 정보검색과 같은 응용 분야에서 중요한 역할을 함
• 기계번역 - 주어진 어휘의 올바른 대역어를 선택하는 데 사용됨
• 정보검색 - 질의어가 포함된 문서를 의미별로 분류하는 데 사용됨
어의 중의성 해소 대상
지식기반 WSD: 사전 뜻풀이
• 지식의 유형
• 기계 가독형 사전의 뜻풀이
• 중의성 어휘의 의미 결정 방식
• (a)와 (b) 사이에 중복되는 어휘가 가장 많은 의미
• (a) 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들
• (b) 문장에서 중의성 어휘의 공기 어휘의 사전 뜻풀이에 쓰인 어휘들
지식기반 WSD: 의미 범주
• 지식의 유형
• 시소러스 등의 의미 범주(semantic category)
• 중의성 어휘의 의미 결정 방식
• 중의성 어휘와 공기하는 어휘들이 가장 많이 속한 의미 범주를 가진 의미
• 같은 문맥에 있는 어휘들의 의미 범주가 결국은 전체적인 문맥의 의미 범주를 결정한다는 가정에 기반을 둔 방법
지식기반 WSD: 대응 어휘 쌍
• 지식의 유형
• 2개 국어로 된 사전(bilingual dictionary)에서 대응되는 어휘쌍
• 중의성 어휘의 의미 결정 방식
• 중의성 어휘가 포함된 구절을 이중어 사전을 이용해 각각의 의미에 따라 다른 언어로 번역한 후, 말뭉치에서의 출현 빈도가 가장 높은 번역 구절의 의미를 선택함
말뭉치 기반 WSD: 의미 부착 말뭉치
• 감독(Supervised) WSD
• 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법
• WSD 문제를 기계학습에서의 통계적 분류 문제로 단순화하여 여러 기계학습 기법을 적용하여 해결
• Naïve Bayes
• Decsion Tree
• Supprot Vector Machine
Naïve Bayes for WSD
정보검색(Information retrieval)
• Goal = find documents relevant to an information need from a large document set
Possible approaches
1. String matching (linear search in documents)
- Slow
- Difficult to improve
2. Indexing (*)
- Fast
- Flexible to further improvement
Indexing-based IR
Indexing
• Indexing 단위
• 음절, 형태소, 단어 등
• N-gram
질의어 확장
• 동의어/유의어 확장
• 맞춤법/문법 오류 교정
• 로마자 표기 변환
'myPPT' 카테고리의 다른 글
음운의 변동 (0) | 2015.12.14 |
---|---|
대인 영향 – 설득 및 자기표현 (0) | 2015.12.09 |
지각 균형설.대륙 이동설.지구의 자전 ,공전 과 계절.태양의 고도변화 (1) | 2015.12.04 |
우리나라 소득세의 특징 (0) | 2015.12.02 |
콤플렉스의 종류 & 동서양의 인물 (0) | 2015.11.30 |