C언어 정리하기 - 문자열과 문자열 함수

Posted by ironmask84
2015. 4. 8. 13:56 컴퓨터공학/C언어 레퍼런스


자료 출처 : http://ruvendix.blog.me/220263134254

컴퓨터와 문자에 대해서 얼마나 알고들 계시나요?


어떤 프로그래밍 언어든지 문자와 문자열을 다루는 것은 매우 중요해요!

문자를 출력하지않는 프로그램은 거의 없죠~

게임에서 문자가 하나도 나오지 않는다고 생각해보세요...


물론 레벨, 경험치, 돈은 출력이 되겠지만 캐릭터의 이름, 퀘스트의 내용, 공지 사항 등 중요한 것들이 나오지 않습니다...

특히 문자는 게임을 한글화할 때 중요하죠~ 게임을 한글화할 때는 단순히 문자를 출력하는게 아니라 기초 지식이 좀 필요합니다.

그 기초 지식을 아는 분과 모르는 분들을 위해서 포스팅을 가르겠습니다.

문자를 다루기 전에 꼭  알아야할 개념이 [문자 집합(Character Set)]입니다.

문자 집합은 말 그대로 문자들이 모인 것을 말하는데 경우에 따라서는 전 세계가 공유하는 문자 집합도 있습니다.

많이들 들어보셨겠지만 [유니코드(Unicode)]가 대표적이죠.


컴퓨터에서 문자를 표현할 때는 그냥 표현하는게 아니라 규칙이 있습니다.

그 규칙에는 SBCS, MBCS, WBCS 등이 있습니다. 하나씩 살펴볼게요.

<SBCS = Single Byte Character Set>

SBCS는 문자를 표현할 때 1바이트만 사용하는 방식을 말합니다.

컴퓨터는 미국에서 발명되었으므로 당연히 사용하던 문자도 영어였죠.

영어는 1바이트만 사용해서 문자를 표현할 수 있습니다.


정확히 말하자면 7비트를 문자 표현으로 사용하고 마지막 최상위 비트를 오류 검사용 비트인 패리티 비트로 사용해요.

SBCS는 미국의 ANSI에서 만든 ASCII가 대표적입니다.

 

ASCII는 정보 교환을 위해 ANSI에서 만든 코드를 말합니다.


ASCII 표를 보면 65부터 90까지가 영어 대문자 알파벳이고 97부터 122까지가 영어 소문자 알파벳입니다.

어떤 프로그래밍 언어를 배우던지 ASCII를 모르면 문자를 다룰때 좀 어려울거에요.

ASCII는 모든 프로그래밍 언어에서 사용이 가능합니다.


비트탕 2개의 데이터를 표현할 수 있으므로 ASCII는 최상위 비트를 제외하고 127개의 데이터를 표현할 수 있지만

최상위 비트까지 사용해서 총 256개의 데이터를 표현하는 확장형 ASCII도 있습니다.


<DBCS = Double Byte Character Set>

SBCS는 치명적인 문제가 있었는데 일부 다른 나라의 언어들을 표현할 수 없다는 점이였습니다.

즉, 1바이트만으로는 한글, 일본어, 중국어 등은 표현할 수 없습니다.

DBCS는 SBCS의 문제를 해결한 문자 집합으로 문자의 표현 크기를 2바이트로 늘렸습니다.

하지만 DBCS도 ASCII를 사용하기 때문에 코드가 중복되는 문제가 발생했습니다.

이 때문에 SBCS와 DBCS 둘 다 사용해야 했습니다...



<MBCS = Multi Byte Character Set>

MBCS는 SBCS와 DBCS를 잘 조합한 문자 집합입니다.


ASCII는 전 세계가 공통으로 사용하고 그 외의 코드들을 한글, 일본어, 중국어 등의 문자로 표현합니다.


자세히 말하자면 ASCII는 0x00부터 0x7F까지니까 여기까지는 전 세계가 공통으로 사용하고


0x80부터는 각 나라마다 따로 사용합니다. 따라서 0x80부터는 각 나라마다 코드가 겹칠 가능성이 높죠.


일본 게임에서 많이 등장하는(미소녀 연애 시뮬레이션, JRPG, 라이트 노벨 게임 등) S-JIS가 대표적입니다.

MBCS는 지금도 사용합니다. 이 때문에 좀 문제가 발생하기도 해요.

문자를 출력할 때 비주얼 스튜디오에서 설정을 좀 바꿔야하는 경우가 있습니다...


MBCS냐 WBCS냐에 따라 문자의 출력 방식이 달라집니다.

이 부분은 잘 알아두세요.

<WBCS = Wide Byte Character Set>

?WBCS는 MBCS를 보완한게 아니라 전 세계가 공통적으로 사용할 수 있도록 만든 문자 집합입니다.


WBCS보단 MBCS가 편한 경우도 많아서 그런지 대부분의 프로그램들이 WBCS를 잘 안쓰죠.


모든 프로그램들이 WBCS를 사용한다면 게임 한글화도 정말 쉬워집니다...

?WBCS는 주로 인터넷에서 사용됩니다. 전 세계가 공통적으로 사용해야할 필요가 있으니까요.


WBCS의 대표가 유니코드입니다. 유니 코드는 모든 문자를 전부 다 2바이트로 표현합니다.

그리고 전 세계 문자를 다 넣으려다보니 용량이 많이 큽니다... 그래서 MBCS를 많이 사용하긴 하죠.?


문자에 대해서 이해할 때는 가장 넓은 개념이 문자 집합이고 그 안에 EUC-KR, S-JIS, 유니코드 등이 있다고 이해해야 됩니다.

그럼 폰트는 뭔가요? 폰트는 문자를 표현하는 방법을 말합니다.

문자에 해당되는 코드는 그대로 유지하고 문자의 크기, 삐침, 굵기, 기울기 등만 변경하는걸 폰트라고 합니다.

한글화를 해봤는데요 문자 코드가 없던데요? 문자를 코드 말고 이미지로 사용하는 방법도 있습니다.

이런걸 고유 폰트라고 하는데 각 이미지를 코드와 연결해서 사용하는 방식입니다.

고유 폰트를 사용하는 게임들은 한글화가 무진장 어렵습니다...

 

문자 집합에 대해서는 이걸 잘 기억하세요.


MBCS에서는 영어가 1바이트이고 다른 대부분의 문자들이 2바이트입니다. (일본어에서 히라가나는 1바이트)


WBCS에서는 모든 문자가 2바이트입니다.


그렇다면 한글은? 한글은 대부분 2바이트로 표현됩니다.


문자열을 다루는 함수를 사용하기 위해서는 먼저 헤더 파일을 포함시켜주세요.

"string.h" 헤더 파일은 문자열을 다루는 함수들이 선언되어 있고


"ctype.h" 헤더 파일은 문자를 판단하는 함수들이 선언되어 있습니다.

제가 사용한 포인터와 배열입니다.


여기서 중요한건 포인터는 문자열의 주소를 가지고 있을뿐 조작하거나 그런건 못합니다.

문자열을 복사 및 결합 및 변환하려면 문자 배열을 사용해야 합니다.


"strlen()" 함수는 종료 문자(\0)를 제외한 문자열의 크기를 알려주는 함수입니다.

한글은 2바이트이고 공백 문자는 1바이트니까 출력은 제대로 나왔군요.

"strcpy()" 함수는 String Copy의 약자로 문자열을 복사하는 함수입니다.

포인터는 작동하지 않으므로 문자 배열을 사용하세요.

첫 번째 인자가 문자열을 저장할 인자고 두 번째 인자가 복사할 문자열입니다.

보안상의 문제로 "strcpy_s()" 함수를 사용했습니다.


"strncpy()" 함수는 "strcpy()" 함수와 비슷합니다.

마지막 인자는 바이트를 나타는데 몇 바이트만큼 복사할지를 설정합니다.



"strcpy()" 함수의 문제를 "strdup()" 함수로 해결할 수도 있습니다.

String Duplication의 약어로 문자열을 복사하는 함수입니다.


다만 문자열을 복사할 때 동적 메모리 할당을 이용해서 문자열의 크기만큼 복사합니다.

동적 메모리 할당을 이용하므로 포인터를 사용해서 주소를 받아야 합니다.?

"strcat()" 함수는 String Concatenation의 약어로 문자열을 붙이는 함수입니다.



"strchr()" 함수와 "strstr()" 함수는 문자열에서 문자와 문자열을 찾는 함수입니다.

약간 사전과 비슷하죠? 사전 프로그램을 만들 때 많이 사용하는 함수입니다.


"strcmp()" 함수는 조건문을 사용할 때 많이 사용하는 함수입니다.

문자열과 문자열을 비교해서 같은지 다른지를 판단합니다.

조건문에 사용하면 문자열을 입력받아 문자열을 검사하는 프로그램을 만들 수 있어요.

문자열1 > 문자열2면 양수를 반환하고

문자열1 == 문자열2면 0을 반환하고

문자열1 < 문자열2면 음수를 반환합니다.


"strupr()" 함수와 "strlwr()" 함수는 영어 알파벳을 대문자 및 소문자로 바꿔주는 함수입니다.

보안상의 이유로 "_strupr_s()" 함수와 "_strlwr_s()" 함수를 사용해야 하지만 이게 더 불안정합니다...

그래서 "_strupr()" 함수와 "_strlwr()" 함수를 사용했습니다.

컴파일하면 경고문이 출력되긴 하지만 무시해도 괜찮아요.

그냥 함수를 새로 만들 수도 있습니다.

ASCII에서 영어 대문자와 소문자의 코드를 이용하면 대소문자 바꾸는건 간단해요.

영어 대문자를 영어 소문자에 해당되는 코드로 바꿔치기하면 간단하죠~



입력한 문자가 무슨 문자인지 잘 판단해주네요~

이 함수들을 자세히 파헤치자면 문자가 맞으면 0이 아닌 값을 반환하고 문자가 틀리면 0을 반환하는 형식입니다.


C언어의 기초를 어느정도 알고나면 후반부는 이런식으로 함수들을 몇 개 소개합니다.


그리고 그 함수들을 싹~다 모은걸 라이브러리라고 하는데 라이브러리는 보통 책에서는 잘 나오지 않죠.


C언어에서 제공하는 함수를 C 라이브러리라고 하는데 정말 많습니다... 그렇다고 다 알 필요는 없고요.

필요할 때 찾아서 사용하면 되는거에요~ 대부분의 프로그래밍이 이런 방식입니다.


머리가 정말 좋다면 모든 함수를 다 외워서 사용하겠지만... 기초 함수들만 알고 있어도 수많은 응용이 가능하답니다.