본문 바로가기




Future Items

파이썬 판다스로 엑셀 파일의 원하는 부분 선택하여 추출 및 읽기 방법

by 독서하는 AI 2023. 10. 11.
 
반응형

엑셀 파일을 다루는 작업은 데이터 분석이나 데이터 처리에 있어서 매우 중요한 부분입니다. 파이썬의 판다스(Pandas) 라이브러리는 엑셀 파일을 손쉽게 다룰 수 있도록 여러 가지 기능을 제공합니다.

1. 엑셀 파일 읽기

먼저, 엑셀 파일을 읽기 위해 다음과 같이 판다스의 read_excel() 함수를 사용합니다.

```python import pandas as pd data = pd.read_excel('파일경로/파일명.xlsx') ```

위의 코드는 '파일경로/파일명.xlsx' 파일을 읽어와서 data 변수에 저장하는 것입니다. 여기서 주의할 점은 엑셀 파일의 확장자에 맞게 파일명을 작성해야 한다는 것입니다.

예제

예를 들어, 다음과 같은 엑셀 파일이 있다고 가정해봅시다.

| 이름 | 나이 | 성별 | |--------|------|------| | Alice | 25 | 여 | | Bob | 30 | 남 | | Charlie| 35 | 남 |

이 엑셀 파일을 읽어오는 코드는 다음과 같습니다.

```python import pandas as pd data = pd.read_excel('data.xlsx') print(data) ```

실행 결과는 다음과 같을 것입니다.

``` 이름 나이 성별 0 Alice 25 여 1 Bob 30 남 2 Charlie 35 남 ```

위의 코드는 'data.xlsx' 파일을 읽어와서 data 변수에 저장한 후, print(data)를 통해 내용을 출력합니다.

2. 특정 부분 선택하여 추출하기

판다스를 사용하면 엑셀 파일에서 원하는 부분만 선택하여 추출할 수 있습니다. 아래 예제를 통해 자세히 알아보도록 하겠습니다.

예제

위에서 사용한 엑셀 파일을 기준으로, 나이가 30 이상인 사람들의 정보만 추출하고 싶다고 가정해봅시다.

```python import pandas as pd data = pd.read_excel('data.xlsx') # 조건에 맞는 데이터 추출 filtered_data = data[data['나이'] >= 30] print(filtered_data) ```

위의 코드는 'data.xlsx' 파일을 읽어와서 data 변수에 저장한 후, 조건에 맞는 데이터만 추출하여 filtered_data 변수에 저장한 뒤, 출력합니다.

실행 결과는 다음과 같을 것입니다.

``` 이름 나이 성별 1 Bob 30 남 2 Charlie 35 남 ```

이와 같이, 엑셀 파일에서 특정 조건을 만족하는 데이터만을 선택하여 추출할 수 있습니다.

3. 다양한 예제

다음은 엑셀 파일을 다루는 데에 유용한 다양한 예제를 소개합니다.

3.1. 특정 열 선택하기

특정 열만 선택하여 추출할 수도 있습니다. 예를 들어, '이름' 열만 선택하여 추출하는 코드는 다음과 같습니다.

```python import pandas as pd data = pd.read_excel('data.xlsx') selected_col = data['이름'] print(selected_col) ```

실행 결과는 다음과 같을 것입니다.

``` 0 Alice 1 Bob 2 Charlie Name: 이름, dtype: object ```

3.2. 특정 행과 열 선택하기

행과 열을 함께 선택하여 추출할 수도 있습니다. 예를 들어, 1번째 행부터 2번째 행까지만 선택하고, '나이'와 '성별' 열만 추출하는 코드는 다음과 같습니다.

```python import pandas as pd data = pd.read_excel('data.xlsx') selected = data.loc[1:2, ['나이', '성별']] print(selected) ```

실행 결과는 다음과 같을 것입니다.

``` 나이 성별 1 30 남 2 35 남 ```

3.3. 특정 행 제외하기

특정 행을 제외하고 나머지 행들만 선택하여 추출할 수도 있습니다. 예를 들어, '나이'가 25인 행을 제외한 나머지 행들만 선택하는 코드는 다음과 같습니다.

```python import pandas as pd data = pd.read_excel('data.xlsx') filtered = data[data['나이'] != 25] print(filtered) ```

실행 결과는 다음과 같을 것입니다.

``` 이름 나이 성별 1 Bob 30 남 2 Charlie 35 남 ```

3.4. 정렬하기

데이터를 특정 열을 기준으로 정렬할 수도 있습니다. 예를 들어, '나이' 열을 기준으로 오름차순으로 정렬하는 코드는 다음과 같습니다.

```python import pandas as pd data = pd.read_excel('data.xlsx') sorted_data = data.sort_values(by='나이') print(sorted_data) ```

실행 결과는 다음과 같을 것입니다.

``` 이름 나이 성별 0 Alice 25 여 1 Bob 30 남 2 Charlie 35 남 ```

이와 같이 엑셀 파일에서 다양한 조건에 맞게 특정 부분을 선택하여 추출하거나 정렬할 수 있습니다. 판다스 라이브러리에는 이 외에도 다양한 기능이 제공되므로, 필요한 작업에 따라 해당 기능을 적절히 활용할 수 있습니다.

반응형