Chomsky Normal Form

개요

CNF(Chomsky Normal Form)는 CFG를 더욱 간단하고 증명하기 쉽게 바꾼 표준 형식이다. 모든 CFG는 CNF와 동등한 문법(Grammars)으로 바뀔 수 있으며, CFG가 다음 세 가지의 규칙만 가지면 CNF에 해당한다:

$A \to B C$ ^[1]
$A \to a$
$S \to ϵ$

CFG를 CNF로 바꾸더라도 새로운 문자열이 생성되지는 않으며, 모든 grammar와 문자열이 그대로 보존된다.

CFG to CNF

아래와 같이 CFG가 주어졌다고 가정하자:

 $S \to A S A | a B$ 
 $A \to B | S$ 
 $B \to b | ϵ$

Step 1

CNF에서는 시작기호가 우변에 등장하면 안 되므로, 기존 시작기호 $S$ 를 포함하는 새 시작기호 $S_{0}$ 를 만든다. 이를 통해 모든 변환은 $S_{0}$ 에서 시작한다. 이를 통해 아래와 같은 식을 추가한다:

 $S_{0} \to S$

Step 2

주어진 식에 $B \to ϵ$ 이 존재하므로 제거해야 한다. 이를 위해서 $B \to ϵ$ 규칙을 제거하고, $B$ 를 포함하는 식이 유도되는 모든 규칙에서, $B$ 를 $ϵ$ 으로 치환한 아래의 식을 추가한다:

 $S \to a B \to a$ 
 $A \to B \to ϵ$

위와 같은 과정을 $A \to ϵ$ 규칙에 대해서도 동일하게 적용해야 한다. 이를 위해 해당 식을 제거하고, 아래의 식들을 추가한다:

 $S \to S$ 
 $S \to A S$ 
 $S \to S A$

또한, $A \to S, A \to B, S \to$ 와 같은 규칙 대신, 해당 변수들이 만들어낼 수 있는 규칙으로 대체해야 한다. 따라서 이를 일괄적으로 적용하면 아래와 같은 결과가 된다:

 $S \to A S A | S A | A S | a B | a$ 
 $B \to b$ 
 $S_{0} \to A S A | S A | A S | a B | a$  ^[2]
 $A \to A S A | S A | A S | a B | a$  ^[3]
 $A \to b$  ^[4]

Step 3

이제, CNF에서는 규칙의 오른쪽에 두개의 비단말만 가능하므로 3개 변수인 $A S A$ 형태를 분해해야 한다. 이를 위해 해당 규칙을 아래와 같이 중간 비단말 $S_{1}, A_{1}$ 을 활용한 규칙들로 대체해야 한다.^[5]:

 $S \to A S_{1}$ 
 $S_{1} \to S A$ 
 $A \to A A_{1}$ 
 $A_{1} \to S A$

또한, CNF에서는 단말이 반드시 단독으로만 나와야 하므로, $S \to a B$ 와 같은 규칙은 허용되지 않는다. 따라서 해당 규칙을 아래와 같이 중간 비단말 $A_{2}$ 을 활용한 규칙들로 대체해야 한다:

 $A_{2} \to a$ 
 $S \to A_{2} B$

따라서 아래와 같이 최종적인 CNF가 도출된다:

 $S \to A S_{1} | S A | A S | A_{2} B | a$ 
 $B \to b$ 
 $S_{0} \to A S_{1} | S A | A S | A_{2} B | a$ 
 $A \to A A_{1} | S A | A S | A_{2} B | a$  
 $A \to b$  
 $A_{2} \to a$

CYK Algorithm

CNF으로 변환된 문법을 기반으로, 주어진 문자열이 언어 $L$ 에 속하는지를 결정론적으로(deterministic) 판단할 수 있다. 이때 recognizer라는 개념이 등장하는데, recognizer는 문자열 $w$ 를 입력받아, 그 문자열이 언어 $L$ 에 속하는지 여부를 판별하는 알고리즘이다. 이때 아래와 같이 수식이 정의된다:

$L = L (G)$ ^[6]
$w = w_{1} w_{2} \dots w_{n}$
$D (i, l, A) = t r u e \leftrightarrow A \Rightarrow * w_{i} w_{i + 1} \dots w_{i + l - 1}$ ^[7]

즉, 위에서 $D (i, l, A)$ 은 "비단말 $A$ 가 $w$ 의 특정 구간을 유도할 수 있는가?"를 기록하는 boolean 테이블이다. 아래는 $D (i, l, A)$ 가 true가 되는 두가지 경우이다:

문법에 규칙 A→a가 존재하는 경우
- 입력 문자열의 i번째 문자가 $a$ 이며 $l = 1$
문법에 규칙 A→BC이 존재하는 경우, 어떤 분할점 k(1≤k<l)에 아래 두 조건이 모두 참
- $D (i, k, B)$
- $D (i + k, l - k, C)$

즉, A가 길이 l의 부분문자열을 만들 수 있으려면 좌측 비단말 B가 앞쪽 부분, 우측 비단말 C가 뒷부분을 생성할 수 있어야 한다. 이때 아래와 같은 명제가 성립한다:

 $w \in L \Leftrightarrow (w = ϵ \land S \to ϵ) \lor D (1, | w |, S)$

CYK(Cocke–Younger–Kasami) 알고리즘은 CFL(Context-Free Language)를 인식하기 위한 동적 프로그래밍 기반의 알고리즘이다.

각주

↑ 이때 B, C는 시작 기호 S가 아니다
↑ $S_{0} \to S$ 규칙을 삭제하며 추가
↑ $A \to S$ 규칙을 삭제하며 추가
↑ $A \to B$ 규칙을 삭제하며 추가
↑ S_1, A_1과 같이 굳이 변수를 두개 추가하는 이유는 S에서 파생된 규칙과 A에서 파생된 규칙을 구분하기 위해서이다.
↑ 즉, $L$ 이 생성하는 언어를 의미한다.
↑ 이는 비단말 $A$ 가 $w$ 의 i번째 문자부터 길이 $l$ 만큼의 부분 문자열을 생성할 수 있으면 true라는 의미이다.

[1] 이때 B, C는 시작 기호 S가 아니다

[2] $S_{0} \to S$ 규칙을 삭제하며 추가

[3] $A \to S$ 규칙을 삭제하며 추가

[4] $A \to B$ 규칙을 삭제하며 추가

[5] S_1, A_1과 같이 굳이 변수를 두개 추가하는 이유는 S에서 파생된 규칙과 A에서 파생된 규칙을 구분하기 위해서이다.

[6] 즉, $L$ 이 생성하는 언어를 의미한다.

[7] 이는 비단말 $A$ 가 $w$ 의 i번째 문자부터 길이 $l$ 만큼의 부분 문자열을 생성할 수 있으면 true라는 의미이다.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

익명 사용자

검색

Chomsky Normal Form

이름공간

더 보기

문서 행위

목차

개요

CFG to CNF

Step 1

Step 2

Step 3

CYK Algorithm

각주

둘러보기

둘러보기

위키 도구

위키 도구

익명 사용자

검색

Chomsky Normal Form

개요

CFG to CNF

Step 1

Step 2

Step 3

CYK Algorithm

각주

둘러보기

위키 도구

문서 도구

분류 목록