본문 바로가기




Future Items

파이썬으로 PDF를 엑셀로 업무 자동화하기

by 독서하는 AI 2023. 10. 11.
 
반응형

1. 개요

PDF 파일은 일상적인 업무에서 자주 사용되며, PDF에서 데이터를 추출하여 엑셀 파일로 자동으로 변환하는 작업은 많은 사람들에게 도움이 됩니다. 본 블로그에서는 파이썬을 사용하여 PDF 파일을 엑셀로 변환하는 자동화 방법에 대해 알아보겠습니다. 초보자도 쉽게 따라할 수 있는 예제를 포함하였으니 걱정하지 마세요!

2. 필요한 패키지 설치

PDF 파일을 조작하기 위해 다음과 같은 파이썬 패키지를 설치해야 합니다.

pip install PyPDF2
pip install openpyxl

3. 예제

본 예제에서는 'sample.pdf'라는 이름의 PDF 파일을 엑셀 파일로 변환하는 방법을 보여줍니다.

import PyPDF2
from openpyxl import Workbook

# PDF 파일 열기
pdf_file = open('sample.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 엑셀 파일 생성
wb = Workbook()
sheet = wb.active

# PDF 페이지 수 만큼 반복
for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    page_text = page.extractText()
    
    # 페이지 텍스트를 엑셀에 추가
    sheet.cell(row=page_num+1, column=1, value=page_text)
    
# 엑셀 파일 저장
wb.save('output.xlsx')

위의 예제를 실행하면 'output.xlsx'라는 이름의 엑셀 파일이 생성되고, PDF의 각 페이지의 텍스트가 엑셀의 각 셀에 저장됩니다.

4. 추가 예제

PDF에서 표 데이터를 추출하여 엑셀로 변환하는 예제입니다.

import tabula
from openpyxl import Workbook

# PDF 파일에서 표 추출
tables = tabula.read_pdf('sample.pdf', pages='all')

# 엑셀 파일 생성
wb = Workbook()
sheet = wb.active

# 추출한 표를 엑셀에 추가
for table in tables:
    for row_index, row in enumerate(table.values):
        for col_index, cell_value in enumerate(row):
            sheet.cell(row=row_index+1, column=col_index+1, value=cell_value)

# 엑셀 파일 저장
wb.save('output.xlsx')

위의 예제는 'tabula' 패키지를 사용하여 PDF에서 표 데이터를 추출하고, 추출한 표 데이터를 엑셀에 저장합니다. 이를 실행하면 'output.xlsx'라는 이름의 엑셀 파일이 생성되고, PDF에서 추출한 표 데이터가 엑셀의 셀에 저장됩니다.

결론

이제 파이썬을 사용하여 PDF를 엑셀로 자동화하는 방법에 대해 알아보았습니다. PyPDF2와 openpyxl 패키지를 이용하여 PDF 파일을 엑셀로 변환하는 방법과 tabula를 이용하여 PDF에서 표 데이터를 추출하여 엑셀로 변환하는 방법을 예제와 함께 알아보았습니다. 이렇게 자동화된 작업은 업무 효율성을 높여주고, 시간과 노력을 절약하는 데에 도움이 됩니다. 파이썬을 사용하여 업무 자동화에 도전해보세요!

반응형