본문 바로가기

글로벌 네트워크

영문 인덱스를 한글로 정리하기

서른일곱 번째 이야기: 영문 인덱스를 한글로 정리하기

작성일: 2014년 3월 4일

작성자: 배장열


안녕하세요? 오늘은 한국의 IT 개발자를 응원하는 제이펍에서 색다른 이야기를 풀어낼까 합니다. 어떻게 하면 영문 인덱스를 조금이라도 수월하게 한글로 옮겨놓을까 고민하는 역자분들과 편집자분들을 위한 알짜배기 팁입니다.


번역 원고에 편집과 교정/교열 작업을 거쳐 출간 전 최종본이 만들어지면, 원문의 인덱스를 우리말로 번역하는 작업을 진행해야 합니다. 다들 어떻게 작업하시나요? 원서와 같은 인덱스를 만들기가 어려워, 번역하신 분이 편집된 교정지에서 마킹한 것들만 뽑아서 만드시지 않나요? 하지만 이는 역자의 주관에 따른 인덱스가 만들어질 확률이 높아 제대로 된 인덱스라 하기 어렵겠죠. 아니면 본문에서 볼드체나 고딕체로 된 중요 단어들만 뽑아서 만드시나요? 이것도 부정확한 인덱스가 될 수밖에 없을 듯합니다. 제대로 된 번역서 인덱스라면 원 저자가 뽑아서 만들고 원출판사의 인덱스 제작 시스템을 따른 인덱스가 가장 나은 인덱스라고 판단합니다. 그래서 제이펍에서는 원서 인덱스 그대로를 번역하되, 한글에 맞게 다시 재정렬하여 거의 모든 번역서를 제작하고 있습니다.


그런데 이 작업 또한 만만치가 않아 쉽게 덤벼들 일이 아니죠. 원문 인덱스를 프린터로 A4 용지에 출력하여 일일이 영문 용어를 번역한 다음, 한글 용어가 교정지에서 어느 곳에 등장하는지 또 일일이 뒤져가며 찾고, 그렇게 해서 찾은 페이지 번호를 또 일일이 A4 용지에 쓴 뒤에서야 엑셀 등으로 작업하지는 않으신가요? 물론 중간중간 컴퓨터의 도움을 받기는 할 겁니다. 처음부터 엑셀에 양식을 만들어 놓고 작업한다든가, 최종본이 pdf 형태로 준비되었을 때는 한글 용어를 pdf에서 직접 검색한다든가 하는 겁니다.


하지만 이 경우에도 문제는 만만치 않습니다. 최종본 pdf에서 직접 검색하려면 일일이 검색할 단어를 입력해야 하고, 한 용어가 여러 곳에 등장할 때는 해당 페이지를 일일이 확인해야 합니다. 만일 한글 인덱스가 500개라면? 500개의 단어를 일일이 입력하여 검색할 수밖에 없겠죠?


이제 다음 내용을 인덱스 작업에 적용하면 작업 시간을 대폭 줄일 수 있습니다. 만일 하루에 3시간씩 주말 포함하여 9일을 인덱스 작업에 쏟았다면, 이제 이틀로 그 시간이 줄어듭니다. 빅오표기법으로 생각해 본다면, 거짓말 조금 보태 O(N^2)에서 O(logN)으로 바뀌는 거죠. 어렵지 않습니다. 무슨 이상한 프로그램을 돈 주고 사야하는 것도 아닙니다. 궁금하시죠? 어서 뛰어들어 볼까요?


필요한 것들

  • 인덱스가 들어 있는 원문 pdf
  • 원서 인덱스를 번역해둔 번역 인덱스
  • 메모장 또는 간단한 텍스트 에디터
  • 한셀 또는 엑셀(저는 한셀밖에 없어서 한셀로 작업했습니다)
  • 번역 원고를 편집한 최종 교정지
  • 자질구레한 작업을 할 수 있는 약간의 인내심
  • 최종 교정지를 받아들고 번역했던 당시를 떠올릴 수 있는 비상한(?) 기억력


전체 단계

  1. 원문 인덱스 pdf를 텍스트 파일로 복사하기
  2. 텍스트 파일을 한셀(또는 엑셀)로 불러오기
  3. 한셀(또는 엑셀) 파일 다듬기
  4. 영문 용어 한글로 번역하기와 상위 필드 복사하기
  5. 페이지 순서로 정렬하기
  6. 교정지와 대조하며 페이지 번호 새로 입력하기
  7. 번역된 용어를 ‘가다다’ 순서로 정렬하고, 형태 다듬기


1단계: 원문 인덱스 pdf를 텍스트 파일로 복사하기

자, 첫 단계는 어렵지 않겠죠? Ctrl-C와 Ctrl-V, 익숙한 키 조합입니다. 원문 pdf에서 인덱스 페이지들을 복사하여 메모장에 붙여 넣습니다.


여기서 사용한 파일은 최근에 제이펍에서 출간한 《리눅스와 함께하는 라즈베리파이》의 원서 pdf에서 마지막 인덱스 페이지만 추려낸 것입니다.


<그림 37-1 인덱스가 들어 있는 원문 pdf 중 일부>


<그림 37-2 메모장으로 붙여 넣은 상태>


저는 텍스트 파일을 유니코드 형식으로 저장했습니다.


2단계: 텍스트 파일을 한셀(또는 엑셀)로 불러오기

한셀(또는 엑셀)에서 텍스트 파일을 불러오면 <그림 37-3>처럼 문자열 마법사 창이 나타납니다. ‘원본 데이터 유형’에서 ‘구분자로 분리됨’을 선택하고 ‘다음’ 버튼을 클릭합니다.


<그림 37-3 한셀의 문자열 마법사, 원본 데이터 유형>


이제 구분자를 선택하는 화면입니다. 인덱스는 쉼표로 구분되었으므로 여기서는 <그림 37-4>처럼 ‘콤마’를 선택하겠습니다. ‘다음’을 클릭합니다.


<그림 37-4 구분자 선택하기>


여기서부터 약간 중요해집니다. ‘원본 데이터 유형’을 선택해야 하는데, 필요한 유형은 ‘문자열’입니다. 다만, ‘미리 보기’에서 아래로 스크롤하면 새로운 열이 보이는데, 셀을 쉼표로 구분했으니 아마도 여러 열이 존재할 것입니다. 이 열을 각각 선택하여 데이터 유형을 모두 문자열로 설정해야 합니다.


<그림 37-5 유형 선택하기, 첫 번째 열>


<그림 37-6 유형 선택하기, 두 번째 열>


<그림 37-7 유형 선택하기, 세 번째 열>


<그림 37-8>은 텍스트 파일을 한셀로 불러온 직후의 모습입니다. 형편없죠? 다음 단계에서 다듬기로 하겠습니다.


<그림 37-8 한셀에서 텍스트 파일을 불러온 직후>


3단계: 한셀(또는 엑셀) 파일 다듬기

우선, 저장부터 하고 본격적으로 다듬어 볼까요? <그림 37-9>는 원문 pdf와 나란히 배열된 모습입니다.



원문 pdf를 참고하여 항목과 하위 항목을 맞춰 주셔야 합니다. 예를 들어, W 섹션에서 WiFi 항목은 필드의 깊이가 3까지 내려갑니다. 따라서 이에 맞춰 다듬어야 합니다. 필요 없는 행들을 삭제하고, 하위 항목을 맞춘 1차 결과는 <그림 37-10>과 같습니다.


<그림 37-10 하위 필드를 가지런하게 정리한 모습>


이제 페이지 번호를 손볼 차례입니다. 여기서는 D열과 E열에 페이지 번호가 있습니다. 왜 두 열일까요? 원문 pdf에서 여러 곳에 등장하는 영문 용어는 그 페이지 번호가 쉼표로 나열되었기 때문입니다. 만일, 같은 용어가 예닐곱 군데에 등장한다면 D, E, F, G, H, I열 등으로 늘어날 것입니다. 특별히 손질해야 한다면 페이지 번호를 모두 한 열(여기서는 D열)로 몰아주는 것도 좋겠지만, 저는 그냥 놔두고는 합니다. 상황마다 다를 수 있지만, 여기서도 그대로 놔두고 작업하겠습니다. 그렇더라도 어느 열까지 페이지 번호가 있는지는 반드시 알고 있어야 합니다. 한셀이나 엑셀에서는 셀들을 영역으로 설정하면 대단히 편리해지지만, 여기서는 이에 관해 언급하지 않겠습니다. 다들 아시지 않나요?


하여간, 여기까지 정리된 모습이 <그림 37-10>입니다. 한 가지 주의할 점이 있습니다. 모든 셀의 서식을 텍스트로 설정해야 합니다. 그래야 편해집니다.


4단계: 영문 용어 한글로 번역하기와 상위 필드 복사하기

따로 언급하지 않겠습니다. 다만, 결과 화면이 <그림 37-11>처럼 하위 필드가 있을 때는 상위 필드를 복사해야 합니다. 한셀이나 엑셀 사용법은 다들 아실 것으로 믿고 따로 말씀드리지 않겠습니다. (단, 책 번역을 하면서 원서 인덱스에 해당하는 번역 인덱스도 함께 만들어둬야 합니다. 비상한 기억력을 갖춘 분이라면 패스!)


<그림 37-11 상위 필드를 복사하여 정리한 모습>


5단계: 페이지 순서로 정렬하기

페이지 순서로 정렬하되, 여기서 정렬 기준은 D열이 첫 번째이고, E열이 두 번째입니다.


그런데 한 가지 골칫거리를 해결해야 합니다. 페이지 번호가 범위일 경우에도 이를 순서대로 정렬해 주면 편한데, 한셀이 엑셀보다 성능이 뒤떨어져 그런지 모르겠지만, 페이지 정렬이 생각만큼 잘 되지 않습니다. 예전에 엑셀로 작업할 때는 신경 쓰지 못했던 문제이기도 합니다. 지금은 제 시스템에 엑셀이 설치되지 않았기 때문에 엑셀에서 어떻게 정렬되는지 확인할 수 없습니다. 그래서 저는 한 가지 편법을 사용합니다. 처음 텍스트 파일이 만들어졌을 때 범위에 해당하는 번호를 임의의 다른 기호로 일괄 변경합니다. 가령, 111-115가 어떤 용어의 페이지라면, ‘-’을 ‘,#’로 일괄 변경합니다. 그러면 한셀에서 텍스트 파일을 불러올 때 범위에 해당하는 페이지 번호는 다음 열에 표시됩니다. 즉, 비디오 항목의 페이지가 ‘111, 114’이고, 오디오 항목의 페이지가 ‘111-114’이라면, 한셀에서는 비디오 항목이 114로, 오디오 항목은 #114로 표시됩니다. 편집하시는 분과 약속만 하면 소통에는 문제가 없겠죠? 이렇게 해서 3단계에서 5단계까지 작업한 결과가 <그림 37-12>와 <그림 37-13>입니다.


<그림 37-12 정렬 기준>


<그림 37-13 정렬 결과 - 페이지 번호가 없는 7개의 행은 일종의 제목 역할을 하는 상위 필드이기 때문에 반드시 정렬 범위에 포함되어야 합니다.>


6단계: 교정지와 대조하며 페이지 번호 새로 입력하기

이제 거의 끝나갑니다. 자, 교정지를 펼쳐 놓고 1페이지부터 차근차근 해당 용어가 나오는 대로 페이지 번호를 업데이트합니다. 여기서는 원문 pdf가 한 페이지라 눈에 확 들어오지는 않지만, 실제로 전체 인덱스를 작업할 때는 1페이지부터 끝 페이지까지 일목요연하게 정리된 모습을 확인할 수 있습니다. 예를 들어, 전체 인덱스가 10여 페이지이고, 원문의 마지막 페이지가 400, 교정지의 마지막 페이지가 500이라면, 페이지 번호 순서로 정렬된 한셀 파일은 1부터 400까지 주르륵 용어들이 일목요연하게 정리됩니다. 교정지 1페이지부터 500페이지까지 한 장씩 넘겨가며 한셀 파일에서 차근차근 페이지 번호를 업데이트하면 인덱스 작업에 걸리는 시간을 대폭 줄일 수 있습니다. 여기까지 진행된 모습이 <그림 37-14>입니다.


<그림 37-14 ‘가나다’ 순서로 다시 정렬된 한글 인덱스>


7단계: 번역된 용어를 ‘가다다’ 순서로 정렬하고, 형태 다듬기

마지막 단계입니다. 한셀 파일을 다시 정렬합니다. 단, 정렬 순서는 첫 번째가 A열, 두 번째가 B열, 세 번째가 C열입니다. 이제 마무리하겠습니다. 하위 필드가 있는 항목에서는 상위 항목이 여러 번 겹치므로 이 셀들만 삭제해 줍니다. 단, 처음 등장하는 상위 필드에는 페이지 번호가 없는데, 한셀에서는 이 행의 위치가 마지막이 됩니다. 페이지 번호가 없기 때문에 정렬 순서가 뒤로 밀린 겁니다. 이 점을 주의하여 중복 셀을 삭제하셔야 합니다. 이 행을 같은 항목들 맨 위로 올려놓고 작업하시면 편합니다. 최종 인덱스 파일의 모습은 세 개의 <그림 37-15>입니다. <그림 37-15c>는 ‘#’ 기호를 ‘-’ 기호로 변경한 결과를 나타냅니다.


<그림 37-15a 한글 인덱스 결과 화면, 첫 번째>


<그림 37-15b 한글 인덱스 결과 화면, 두 번째>


<그림 37-15c 범위를 나타내기 위해 -로 다시 변경한 모습>


여기까지입니다. 지금까지 내용은 곧 동영상 파일로도 소개할 예정입니다. 사실, 말로 하면 금방 끝날 텐데, 그림을 싣고 단계별로 소개하자니 내용이 길어졌습니다. 이제 지겹기도 하고 손품이 많이 들기도 하는 인덱스 작업을 조금이나마 수월하게 작업하실 수 있겠죠?


읽어 주셔서 고맙습니다.