Vorsprung durch Technik

블로그 이미지

MSNU

자연 언어 처리

myPPT 2015. 12. 7. 16:17





























자연언어처리

자연언어처리

• 자연언어(natural language)

• 인간이 일상적으로 사용하는 언어

• 한국어, 영어, 일본어, 중국어, 프랑스어 등

• 인공언어(artificial language)와 대비됨


• 자연언어처리(natural language processing)

• 인간이 보통 쓰는 언어를 컴퓨터에 인식시켜서 처리하는 일

• 정보검색, 질의응답 시스템, 기계번역, 음성인식, 음성합성 등

자연언어처리 단계

• 자연언어처리 단계

• 형태소 분석

• 나는(나/NN+는/JX) 사과를(사과/NN+를/JX) 받았다(받다/VV+았/EP+다/EF)

• 통사 분석

• 나는(S)  사과를(O) 받았다(V)

• 의미 분석

• 사과 = apple

• 사과 = apology

• 화용 분석

• 나는 사과를 받았다. 그것은 맛있었다.



자연언어처리의 어려움

• 중의성(ambiguity)

• 형태소 중의성

• 나는: 나+는, 날다+는, 나다+는

• 통사 중의성

• 아름다운 영희의 엄마

• 의미 중의성

• 눈이 맑다, 눈이 좋다, 눈이 정확하다, 눈을 의식하다

• 화용 분석

• 실세계와의 연결

• 고양이가 쥐를 쫓는다. 그게 열심히 도망간다.

• 고양이가 쥐를 쫓는다. 그게 열심히 쫓아간다.





의미 분석 


• 어의 중의성 해소(Word Sense Disambiguation)

• 중의성 어휘가 문맥에서 어떤 의미로 사용되었는지를 구분하는 작업

어의 중의성 해소의 필요성 


• 자연언어는 본질적으로 많은 의미 중의성을 지니고 있기 때문에 정확한 언어 정보를 추출하여 이용하려면 어의 중의성 해소가 필요함

• 표준국어대사전에 실린  표제어 509,076개 중 24.37%(124,254개)가 중의성 어휘임(국립국어원, 2002)

• 기계번역이나 정보검색과 같은 응용 분야에서 중요한 역할을 함

• 기계번역 - 주어진 어휘의 올바른 대역어를 선택하는 데 사용됨






• 정보검색 - 질의어가 포함된 문서를 의미별로 분류하는 데 사용됨

어의 중의성 해소 대상

지식기반 WSD: 사전 뜻풀이

• 지식의 유형

• 기계 가독형 사전의 뜻풀이

• 중의성 어휘의 의미 결정 방식

• (a)와 (b) 사이에 중복되는 어휘가 가장 많은 의미

• (a) 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들

• (b) 문장에서 중의성 어휘의 공기 어휘의 사전 뜻풀이에 쓰인 어휘들











지식기반  WSD: 의미 범주

• 지식의 유형

• 시소러스 등의 의미 범주(semantic category)

• 중의성 어휘의 의미 결정 방식

• 중의성 어휘와 공기하는 어휘들이 가장 많이 속한 의미 범주를 가진 의미

• 같은 문맥에 있는 어휘들의 의미 범주가 결국은 전체적인  문맥의 의미 범주를 결정한다는 가정에 기반을 둔 방법







지식기반 WSD: 대응 어휘 쌍

• 지식의 유형

• 2개 국어로 된 사전(bilingual dictionary)에서 대응되는 어휘쌍

• 중의성 어휘의 의미 결정 방식

• 중의성 어휘가 포함된 구절을 이중어 사전을 이용해 각각의 의미에 따라 다른 언어로 번역한 후,  말뭉치에서의 출현 빈도가 가장 높은 번역 구절의 의미를 선택함







말뭉치 기반 WSD: 의미 부착 말뭉치

• 감독(Supervised) WSD

• 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법







• WSD 문제를 기계학습에서의 통계적 분류 문제로 단순화하여 여러 기계학습 기법을 적용하여 해결

• Naïve Bayes

• Decsion Tree

• Supprot Vector Machine

Naïve Bayes for WSD

정보검색(Information retrieval)

• Goal = find documents relevant to an information need from a large document set


Possible approaches

1. String matching (linear search in documents)

- Slow

- Difficult to improve

2. Indexing (*)

- Fast

- Flexible to further improvement


Indexing-based IR

Indexing

• Indexing 단위

• 음절, 형태소, 단어 등

• N-gram


질의어 확장

• 동의어/유의어 확장

• 맞춤법/문법 오류 교정

• 로마자 표기 변환





'myPPT' 카테고리의 다른 글

음운의 변동  (0) 2015.12.14
대인 영향 – 설득 및 자기표현  (0) 2015.12.09
지각 균형설.대륙 이동설.지구의 자전 ,공전 과 계절.태양의 고도변화  (1) 2015.12.04
우리나라 소득세의 특징  (0) 2015.12.02
콤플렉스의 종류 & 동서양의 인물  (0) 2015.11.30
Posted by MSNU






favicon

Vorsprung durch Technik

  • 태그
  • 링크 추가
  • 방명록

관리자 메뉴

  • 관리자 모드
  • 글쓰기
  • 분류 전체보기 (993)
    • myPPT (813)
    • 시리즈 (164)
      • 연소 (14)
      • 경제 (5)

카테고리

PC화면 보기 티스토리 Daum

티스토리툴바