본문 바로가기

Projects/CoVNC

겨우 찾아낸 제대로 된 XML 파싱

================================================
안준철님 정말 감사합니다.
================================================
 출처 : 블로그 > Jon's 블로그
 http://blog.naver.com/junechol/140022015860

xml에 있는 데이터를 액셀 파일로 저장하려고 한다.

화면에 액셀이 뜨지는 않고 조용히 xls 파일이 만들어져야 한다.

이를 위해서는 excel automation을 써야 한다.

또한 xml을 읽어들이는 작업은 msxml 컴포넌트를 쓴다.


비주얼 스투디오에서 끌어오기 하는 방식으로 automation을 하기도 한다.

숱한 참조문서에서 그렇게들 한다.

나도 그렇게 했었다.

왜 되는지는 모르고 되니까 좋아했다.


여기서는 #import로 automation하는 방법을 쓴다.

이게 이해하기도 쉽고, 소스파일 갯수와 크기가 줄어든다.

샘플 프로그램은 window console 기반 api 프로그램이다.

(뭐 MFC가 싫지는 않지만, 프로그래머를 바보로 만든다.)


두가지 컴포넌트를 쓴다.

1. excel.exe (액셀을 깔아야 한다. 당연히...)

2. msxml2.dll (msxml 2.6 이상의 버전을 깔면 된다. ms에서 다운가능)


완전한 소스를 올리기는 그러니 요약해서 커멘트하겠다.


------------------------------------------------------


// printf 와 strxxx 함수들을 쓰려면 이것들은 써야한다.

#include <stdio.h>
#include <tchar.h>


// #import 가 뭐하는 거냐하면...

// 아무것도 안하고 #import "msxml2.dll" 만 한다음에 컴파일해 보라.

// msxml.tlh 와 msxml.thi 가 debug 디렉토리에 생긴다.

// 이 파일들이 automation의 마술을 한다.


#import "msxml2.dll"
using namespace MSXML2;
// 뒤에 보면 여전히 MSXML2::xxx 라고 쓰고 있다. ambiguity가 발생하기 때문이다.


// excel은 절대경로로 import 할 수밖에 없을게다.

#import "C:\Program Files\Common Files\Microsoft Shared\OFFICE11\MSO.DLL" \
   rename("RGB", "MsoRGBType")
#import "C:\Program Files\Common Files\Microsoft Shared\VBA\VBA6\VBE6EXT.OLB"
#import "C:\\Program Files\\Microsoft Office\\OFFICE11\\excel.exe"\
   rename("DialogBox", "ExcelDialogBox") \
   rename("RGB", "MsoRGBType") \
   rename("CopyFile", "ExcelCopyFile") \
   no_dual_interfaces
using namespace Excel;


// ---------소스 생략----------

// main 과 doTranslate만 보면 된다.


int main(int argc, char* argv[])
{
  char excelFilename[1024];


// 실행시 파라미터 까보기 생략


// CoInitialize는 automation (COM interface 사용) 에는 필수다.

  HRESULT hr;
  hr = CoInitialize(NULL);


  printf("opening %s using MSXML2\n", argv[1]);



// xxxPtr 은 신비한 타입이다.

// xxxPtr.func() 도 있고 xxxPtr->func() 도 된다. (두가지는 다른 용도로 쓰인다.)

// smart pointer라는 것인데, _COM_SMARTPTR_TYPEDEF() 매크로를 볼 것.

  IXMLDOMDocument2Ptr pXMLDoc;


// IXMLDOMDocument2Ptr::CreateInstance 는 _com_ptr_t 템플릿 클래스의 멤버함수다.

// (comip.h 참조)

// 이건 CoCreateInstance를 불러서 COM object instance를 만든다.


// "Msxml2.DOMDocument" 가 어디서 나온건지 궁금하면...

// regedit.exe를 실행해서 HKEY_CLASSES_ROOT 아래에서 찾아보라.

// 이 스트링으로부터 CLSID 값을 받아낼 수 있다.

// 나중에 나오는 "Excel.Application"도 마찬가지

  hr = pXMLDoc.CreateInstance(L"Msxml2.DOMDocument");


// 여기서 리턴된 값이 S_OK 가 아니면 CoCreateInstance가 실패한 것이다.
  if (hr == S_OK)
  {

// _variant_t 는 VARIANT 타입의 불편함을 덜어주는 클래스다. (comutil.h 참조)

// #import 하면 이런 comxxx.h 헤더들이 다 include 된 것이다.
    _variant_t vFilename;
    vFilename.SetString(argv[1]);


// 이번에는 xxxPtr->func() 을 사용했다.

// 이건 xxx 의 함수다. 즉, 이 경우 IXMLDOMDocument2의 함수다.

// msxml2.tlh 에 사용할 수 있는 함수들이 뭐가 있는지 볼 수 있다.

// 문제는 함수 프로토타입만 있지, 뭐에 쓰는 함수인지는 없다는 건데...

// 이건 해당 컴포넌트의 매뉴얼을 (있다면) 참조하는 수밖에 없다.

// 다행히 msxml 이나 excel 은 그나마 msdn 문서가 좀 있다.


// IXMLDOMDocument2::load 는 xml 파일을 읽는 함수다.

// xml 파일이 조금만 잘못되어 있어도 에러가 난다.

// 아래쪽 else 의  GetparseError()->get_reason() 해서 어지간한 이유는 알 수 있다.

    if (pXMLDoc->load(vFilename))
    {
      doTranslate(pXMLDoc, excelFilename);
    }
    else
    {

// _bstr_t는 BSTR을 쓰기 편하게 만든 클래스임.(comutil.h 참조)
      _bstr_t bsReason;
      pXMLDoc->GetparseError()->get_reason(bsReason.GetAddress());

// printf 의 %S는 wchar 스트링을 찍는다.(%s 아님)
      printf("%S\n", bsReason);
    }

// CreateInstance() 했다면 반드시 Release() 또는 Detach() 해야한다.
    pXMLDoc.Release();
  }
  else
  {
    printf("Cannot create DOMDocument instance.\nDid ");
  }

// CoInitialize()를 부른 프로그램은 끝내기 전에 반드시 CoUninitialize() 해야 한다.

  CoUninitialize();
  return 0;
}


void doTranslate(IXMLDOMDocument2Ptr pXMLDoc, const char *excelFilename)
{
  HRESULT hr;
  int i, j;


// 왜 하필 _ApplicationPtr 로 CreateInstance를 하는 걸까?

// 물론 문서에서 그렇게 하라고 하기 때문이다.

// 다음과 같은 짓을 해보면 hr == E_NOINTERFACE 가 된다.

//     _WorksheetPtr sheet;
//     hr = sheet.CreateInstance(L"Excel.Application");


// 이게 뭘 뜻하느냐 하면, _Worksheet 인터페이스는 Excel.Application COM object의

// IUnknown 인터페이스에 물어보면 모르는 인터페이스란 얘기.

// 즉, 다른 인터페이스를 통해 간접적으로 액세스하는 인터페이스라는 말이다.


  _ApplicationPtr app;
  hr = app.CreateInstance(L"Excel.Application");

  if (hr == S_OK)
  {

// excel 버전 보기
    _variant_t var;
    var = app->GetVersion();

// 문서에 sheet 하나만 달랑 있게 하기

    app->PutSheetsInNewWorkbook(1);


// _Worksheet 인터페이스 얻기 (3단계, 다른 수도 있다. 찾아보라.)

    WorkbooksPtr books = app->GetWorkbooks();
    _WorkbookPtr  book = books->Add();
    _WorksheetPtr sheet = book->GetActiveSheet();


// 다시 xml로 돌아가자.

// IXMLDOMNode 는 msxml의 모든 구성요소들이 지원하는 인터페이스다.

// 심지어 IXMLDOMDocument2도 이걸 상속받았다.

// 별로 지원하는 함수가 많지 않다. 주로 parent/child/sibling 뒤지기만 한다.

// 혹시 노드의 attribute값을 보려면, 즉 <TAG type="dummy"> 에서 dummy를 읽으려면

// IXMLDOMElement를 써야 한다.


    _bstr_t bsGimml("GIMML");

// selectSingleNode() 는 name 이 맞는 첫번째 child 노드를 리턴한다. 유용함
    MSXML2::IXMLDOMNodePtr nodeGimml = pXMLDoc->selectSingleNode(bsGimml); 
    _bstr_t bsElements("Elements");
    MSXML2::IXMLDOMNodePtr nodeElements = nodeGimml->selectSingleNode(bsElements);


// selectSingleNode()에서 에러가 나면 리턴값이 NULL 이다.
    if (nodeElements)
    {
      bool error = false;

// 차일드 노드 루프돌기

// GetchildNodes() 함수는 IXMLDOMNodeList 인터페이스를 리턴하는데

// 여기다 대고 nextNode()를 하면 차일드를 다 뒤질 수 있다.
      MSXML2::IXMLDOMNodeListPtr elementlist = nodeElements->GetchildNodes();

// 리스트 갯수를 알아야 루프돌기 편할 것이다.
      int elementCount = elementlist->Getlength();

      /* scan for ALPHA_STRING elements */
      for (i=0; i<elementCount; i++)
      {

// nextNode()는 첫번째 차일드 노드부터 리턴한다.

// 그러니 루프내에서 무조건 부르고 본다.
        MSXML2::IXMLDOMElementPtr anElement = elementlist->nextNode();

        /* node name check (shoud be "Element") */

// 노드명 받기 <TAG type="dummy"> 에서는 TAG가 노드명
        _bstr_t bsNodename = anElement->GetnodeName();
        _bstr_t bsElement("Element");
        if (bsNodename != bsElement) // _bstr_t 비교는 연산자로 가능
        {
          printf("node name is %S. <Element> expected\n", bsNodename);
          error = true;
          break;
        }
               
        /* get id string */
        _bstr_t bsId("id");

// attribute 보기
        _variant_t varElementId = anElement->getAttribute(bsId);
        printf("%S\n", varElementId.bstrVal);

        /* format check (only "AG_FORMAT_ALPHA_STRING" will be processed) */
        _bstr_t bsAlphaString("AG_FORMAT_ALPHA_STRING");
        _bstr_t bsFormat("format");
        _variant_t varFormat = anElement->getAttribute(bsFormat);
        _bstr_t bsFormatValue(varFormat.bstrVal, true);
        if (bsFormatValue != bsAlphaString)
        {
          printf(" Skip: element %S is %S format.\n", varElementId.bstrVal, varFormat.bstrVal);
          continue;
        }


        /* get data */
        MSXML2::IXMLDOMNodeListPtr dataList = anElement->GetchildNodes();
        int dataCount = dataList->Getlength();

        if (dataCount == 0) continue;

        WCHAR wzData[10][1024] = {0,};

        for (j=0; j<dataCount; j++)
        {
          MSXML2::IXMLDOMElementPtr dataElement = dataList->nextNode();

          /* get id value */
          int id = j;
          _bstr_t bsDataId("id");
          _variant_t varDataId = dataElement->getAttribute(bsDataId);
          if (varDataId.vt == VT_BSTR)
          {

// atoi 의 wchar 버전
            id = _wtoi(varDataId.bstrVal);
            if (id < 0 || id >= 10)
            {
              error = true; break;
            }
          }


// 이 함수 내부는 생략했다.

// wzData 에 wchar 스트링을 채워 넣는 함수다.

         if (ucs2StringFromData(dataElement, wzData[id]) == false)
         {
            error = true; break;
         }
        }
               
        /* error in getting data string... stop. */
        if (error) break;


// 다시 액셀로 돌아가자.

// 아까 _Worksheet 까지는 준비해두었다.

// 액셀에 데이터를 넣을 때는 Range로 하나의 셀을 지정한 후에 값을 넣는다.

        /* write a element to excel sheet */
        char colAlphabet;
        int  rowInt;
        char cellString[20]; /* cell id like "Z11" */
        RangePtr cell;
   
        rowInt = i + 2; /* excel cell begins with 1. and added one more for header */
        colAlphabet = 'B';

// cell을 지정하기 위해서 "E13" 형태의 스트링을 만든다.
        sprintf(cellString, "%c%d", colAlphabet, rowInt);


// cell 하나를 선택하고, 값을 넣는다.   
        cell = sheet->GetRange(cellString);
        cell->PutValue2(varElementId.bstrVal);

        for (j=0; j<10; j++)
        {
          colAlphabet = 'C' + j;
          sprintf(cellString, "%c%d", colAlphabet, rowInt);
          cell = sheet->GetRange(cellString);
          cell->PutValue2(wzData[j]);
        }
  
      }

      if (!error)
      {
        /* save if no error */
        char fullpath[1024];
        sprintf(fullpath, "%s\\%s", curDir, excelFilename);

// SaveAs()를 통해 xls 저장.

// Save()를 부르면 파일 다이얼로그가 뜬다. 짜증날 것임.
        sheet->SaveAs(fullpath);
      }
    }
    else
    {
      _bstr_t bsReason;
      pXMLDoc->GetparseError()->get_reason(bsReason.GetAddress());
      printf("%S\n", bsReason);
   }

// 액셀 프로그램을 닫는다.

// 액셀이 안보이지만 프로그램이 떠 있다. 그러므로 Quit()을 해야 한다.
    app->Quit();

// 아까 말했듯이 CreateInstance 한놈은 반드시 Release() 해야 한다.
    app.Release();
  }
  else
  {
    printf("Cannot create Excel application instance.\n");
  }

}


------------------------------------------------


p.s.

혹시 excel 에 "="로 시작하는 스트링을 넣고 싶다면, 앞에 ' 를 붙여넣어라.

' 는 저장되지 않는다.

저장되기는 하는데... GetText() 해보면 '는 빠져 있다.

즉, 액셀이 특수문자로 간주하여 셀 value에서는 제외된다.

'Projects > CoVNC' 카테고리의 다른 글

RTF를 사용하기 위하여  (0) 2007.07.23
소스코드 검색 사이트  (0) 2007.06.09
BSTR  (0) 2007.05.31
[Win32 API] DialogBoxParam  (0) 2007.05.20
MSXML 사용법 요약  (0) 2007.05.05