[pandas] 대용량 파일 읽기 (chunksize)

Python/Pandas

[pandas] 대용량 파일 읽기 (chunksize)

notty 2024. 8. 18. 09:47

728x90

5GB 이상의 데이터를 한꺼번에 read_csv()를 사용하여 pandas dataframe으로 읽어들이는데 MemoryError 발생

MemoryError: Unable to allocate 512. KiB for an array with shape (65536,) and data type int64

chunksize 파라미터를 사용하여 잘라서 가져온다

import pandas as pd

chunksize = 10000
chunk = pd.read_csv('file_path', chunksize=chunksize)

df는 dataframe으로 반환되는것이 아니라 iterable한 객체로 반환되어 for문으로 접근 가능함. 각 chunk는 dataframe형태임

for문 접근 -> 하나의 dataframe으로 concate

chunks = []
for i in chunk:
	chunks.append(i)

df = pd.concat(chunks, ignore_index=True)

df 확인

코드

import pandas as pd

chunksize = 10000
chunk = pd.read_csv('file_path', chunksize=chunksize)

chunks = []
for i in chunk:
	chunks.append(i)
    
df = pd.concat(chunks, ignore_index=True)

728x90

'Python > Pandas' 카테고리의 다른 글

[kaggle learn geopandas] Your First Map (1)	2024.06.04
[kaggle learn pandas] Renaming and Combining (0)	2024.05.31
[kaggle learn pandas] Data Types and Missing Values (0)	2024.05.30
[kaggle learn pandas] Grouping and Sorting (0)	2024.05.30
[kaggle learn pandas] Summary Functions and Maps (0)	2024.05.27

현재글[pandas] 대용량 파일 읽기 (chunksize)

250x250

notty

딥러닝, 파이토치, 인공지능, 개발자, 다항식회귀, Algorithm, DP, 통계, 통계학습, 이분탐색, Pinecone, pandas, 벡터db, 위키북스, pandas기초, 알고리즘, kaggle learn, chunksize, 파이썬, 그래프,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

notty

[pandas] 대용량 파일 읽기 (chunksize)

'Python > Pandas' 카테고리의 다른 글

'Python/Pandas'의 다른글

티스토리툴바

[pandas] 대용량 파일 읽기 (chunksize)

'Python > Pandas' 카테고리의 다른 글

'Python/Pandas'의 다른글

관련글

티스토리툴바