학습과 업무를 수행하면서 기록을 남기자 했지만, 실천을 못 했었다.
오늘을 시작으로 기록을 남기기 시작하여, 계속해서 참고하고 상기하여 나의 지식으로 만들고자 한다.
먼저 자연어의 특징을 먼저 알고 시작하자.
시계열성 / 문법 & 순서
자연어는 본질적으로 시계열의 특징을 가진다. 단어나 문장은 특정 순서로 나타나며, 이 순서는 의미 전달에 중요한 역할을 한다.
예를 들어, "고양이가 쥐를 쫓는다"와 "쥐가 고양이를 쫓는다"는 같은 단어로 구성되어 있지만, 순서가 바뀌어 전혀 다른 의미를 갖게 된다.
문맥 의존성
자연어의 의미는 종종 문맥에 따라 달라진다. 동음이의어, 다의어, 은유 등은 주변 문맥을 고려해야 정확한 의미를 파악할 수 있다.
예를 들어, "배에서 배를 많이 먹었더니 배가 부르다"라는 문장에서 '배'라는 단어는 각각 다른 의미로 사용된다.
언어의 모호성
자연어는 본질적으로 모호한 경우가 많다. 같은 문장이라도 상황이나 화자의 의도에 따라 다르게 해석될 수 있기 때문이다. 예를 들어, "모두가 핫도그를 먹었다"라는 문장에서 '모두'가 정확히 누구를 지칭하는지는 문맥에 따라 달라질 수 있다.
비정형 데이터
자연어는 비정형 데이터의 대표적인 예이다. 문법 규칙을 따르지 않는 구어체, 신조어, 오타 등이 빈번하게 등장하며, 이러한 요소들이 자연어 처리를 더욱 복잡하게 만든다.
자연어 처리의 도전과제
이러한 자연어의 특성들로 인해, 컴퓨터가 자연어를 정확히 이해하고 처리하는 것은 매우 어려운 과제이다. 특히 시계열성과 순서의 중요성은 RNN, LSTM, GRU, Transformer etc.. 신경망 모델이 개발된 주요 동기가 되었다. 이러한 모델들은 시퀀스 데이터를 처리하는 데 특화되어 있어, 자연어의 시계열적 특성을 효과적으로 다룰 수 있습니다. 또한 장기 의존성 문제를 해결하여 문맥을 더 잘 이해할 수 있게 되었다.
다음 포스팅에서는 이러한 자연어의 특성을 고려하여 개발된 RNN, LSTM, GRU 모델에 대해 자세히 살펴보겠습니다. 이 모델들이 어떻게 자연어의 시계열성과 문맥 의존성을 처리하는지, 그리고 각 모델의 장단점은 무엇인지 알아보겠다.
'TECH > AI' 카테고리의 다른 글
| Multi CUDA - ubuntu 24.04 (1) | 2024.09.25 |
|---|---|
| CNN : CV #1 (0) | 2024.09.21 |
| RNN, LSTM, GRU | 자연어처리 #2 (0) | 2024.09.21 |
| Introducing RAG (0) | 2024.09.11 |
| 데이터 분석 이전에 (0) | 2024.09.03 |