티스토리 뷰

3. Word-Frequency List는 Text 정보의 요약이라고 할 수도 있다. 그렇다면, Word-Frequency로 알 수 있는 텍스트 정보의 장점과 이용 가능한 분야에 대해서 예를 들어 설명하고, Word-Frequency List가 제시할 수 있는 어휘 정보의 한계점에 대해서 기술하시오. (20점)

 

 

 

    여러 종류의 텍스트를 서술형식에 따라서 분류해야 한다면 이 분류 작업을 자동화시킬 수 있는 절차의 개발에 유용한 근거가 될 수 있다.

 

 


 

    장점

        ∙그 빈도수를 통해 각 단어들이 텍스트 내에서 얼마나 유의하게 사용되는 지 알 수 있다

        ∙각 단어의 빈도수를 통해서 텍스트의 기본 특징을 찾는 데에 유용하게 쓰일 수 있는 특징들을 찾을 수 있다. (텍스트의 예비 조사로 자주 쓰인다.)

        ∙텍스트에서 중요하게 쓰인 단어가 많이 쓰이게 마련이므로 추가 연구 대상 단어를 선택하는 데 있어서 기본적으로 쓰인다.

        ∙다른 말모둠과 비교하면서 비정상적 분포상황을 한 눈에 알아볼 수 있다. (이 과정에서 생기는 의문점들은 다른 연구 방법들을 사용해서 계속 연구할 수 있다.)

        → Frankenstein이라는 텍스트의 빈도수를 Cobuild Corpus와 비교해 보면 그 순위의 차이를 통해 Frankenstein이 1인칭 서술체라는 점을 유추해낼 수 있다.

 

 

    활용 분야

        보편적으로 많이 쓰이는 단어를 추출해서 각 분야별로 많은 분량의 텍스트들의 Frequency List를 만든다면 텍스트의 본래 분야에 관계없이 많이 쓰이는 단어를 알아낼 수 있다. 언어 교육에 있어서 우선순위를 제시하여 일반적으로 많이 쓰이는 단어부터 배워서 교육의 효과를 높일 수 있다. 상대적으로 적은 시간을 들이더라도 의사 소통 능력의 향상을 자각할 수 있으므로 외국어 교육에 특히 도움될 것이다. 반대로, 정치, 사회, 경제, 과학 등 각 분야별 중요 어휘를 따로 추출할 수 있다. 각 분야별 텍스트별로 빈도수를 분석한다면 분야별로 중요하고 많이 쓰이는 어휘가 무엇인지 알아내서 또한 그 분야의 연구에 활용할 수 있다. 특정 텍스트를 예비조사할 수 있다. 특정 텍스트의 Frequency List를 다른 텍스트들의 그것과 비교했을 때, 그 텍스트의 어휘의 특징을 발견할 수 있다. 예를 들어, 소설 Frankenstein같이 일인칭 주격대명사 'I'의 빈도수가 Cobuild Corpus같은 다른 텍스트에 비해 아주 높았다면, 일인칭시점으로 서술되고 있음을 예측할 수 있다.

 

 

    한계점

        bank와 같은 단어는 문맥에서 어떻게 쓰이는지 볼 수 없다면 '은행'으로 쓰이는 지, '둑'으로 쓰이는 지 전혀 알 수 없다. Frequency List의 작성 원리 상 형태만 같다면 같은 뜻으로 인식하기 때문이다. 우선, 단어의 문법적 기능을 알 수 없다. 어떤 텍스트에서 'work'라는 단어가 쓰였다고 하자. 'work'는 동사로도 쓰이기도 하고, 명사로도 쓰이기도 한다. 그런데 Frequency List에서는 'work' 하나로 기록된다. 역시, 그 단어가 명사로만 쓰인다하더라도 'bank'와 같이 다의어라면 어떤 의미로 쓰였는 지 알 수가 없다. 마지막으로, 단어의 문맥적인 뉘앙스를 알 수 없다. 예를 들어, 소설 Frankenstein의 Frequency List에서 monster나 devil이라는 단어의 분위기는 일반적으로 봐도 부정적이고, creature나 creation은 중립적인 것 같다는 예상은 할 수 있지만, 문맥과 분리되어 있기 때문에 확신할 수는 없다.

댓글
댓글쓰기 폼