유니코드 이해 하기

Posted by ironmask84
2017. 9. 19. 10:11 나는 프로그래머다!/기초 다지기


컴퓨터의 문자셋 (Character Set)

컴퓨터가 문자를 표현하는 방식은 0 과 1을 이용해서 입니다.

간단하게 풀어서 얘기하면, 전기적 신호가 차단되었는지 인가되었는지를 0 과 1로 구분하는 것입니다.

이러한 0 과 1의 연속된 패턴값이 가지고 2진수의 표현인 것이고,

이 2진수로 이루어진 연속된 패턴은 bit에 의해 자리수가 결정됩니다.

예를들어, 2bit면 00, 01, 10, 11  으로 4가지 표현이 가능하지요.

컴퓨터에서는 Byte단위로 문자를 표현합니다.

1Byte는 8bits 입니다. 


ASCII 코드 등장

그렇다면, 2의 8승인 256가지의 표현이 가능합니다.

이러한 문자표기 중 유명한 것으로 ASCII 코드가 있습니다.

ASCII 코드는 7bits만 사용하고, 영문자와 특수기호 등을 128가지 안에 표현한 것입니다.

참고로, 65인 0100 0001 이 대문자 알파벳 'A' 를 의미합니다.

하지만, 이 아스키 코드로는 한국어, 일본어, 중국어와 같은 문자 종류가 매우 많은 언어는 

8bits로는 표현이 불가능 합니다.

그리고 왜 영문 표현인 ASCII 코드가 먼저 만들어졌을까?

아는분들은 아시지만, 컴퓨터 보급화는 미국에서 시작되었고,

운영체제를 비롯한 여러 유명 SW들이 미국에서 대부분 시작되었습니다.


유니코드 등장

그리하여, 여러가지 문자셋 코드가 등장하다가,

국제 표준 문자셋 코드가 등장했으니,

이것이 유니코드 입니다. (UCS, Universal Character Set, 범용 문자 집합)

그 중에서도 현재 가장 많이 쓰이고 표준화 될 가능성이 높은 것이 UTF-8 입니다.

자세하게 잘 정리된 블로그가 있어서 아래에 링크 올립니당 ^^


http://maximer.tistory.com/100

http://yun4794.blog.me/220990159709

http://egloos.zum.com/chucky1/v/1185578