Data Cleaning – Play with DataFrame (Part 1)

DataFrame mirip dengan tabel yang ada di MySQL, terdiri dari baris dan kolom. Kolom merepresentasikan variabel, sedangkan baris menunjukkan observasi. Kadangkala, dataframe yang kita gunakan perlu kita lakukan pengolahan lebih lanjut. Terdapat beberapa operasi yang biasa digunakan yaitu

  1. Import data
  2. Menampilkan sebagian data
  3. Mengganti nama kolom
  4. Mengambil sebagian kolom
  5. Mengambil sebagian baris
  6. Missing Values
  7. Menggabungkan dua dataframe atau lebih

Proses Cleaning data beberapa operasi di atas dapat dilihat secara lengkap di github.com/arofiqimaulana. Source code di bawah ini merupakan bagian dari post github tersebut.

1. IMPORT DATA
import pandas as pd
# Import data dari CSV
df = pd.read_csv('Data/Ekspor Logam Dasar Mulia.csv',sep=';')

# Import data dari xlsx
df = pd.read_excel('Data/Ekspor Logam Dasar Mulia.xls',sheet_name='Sheet2')
2. MENAMPILKAN SEBAGIAN DATA 
df.head()
3. MENGGANTI NAMA KOLOM
df.columns = ['Negara_Tujuan','t_2012','t_2013','t_2014','t_2015','t_2016','t_2017']
4. MENGAMBIL SEBAGIAN KOLOM
# Mengambil satu kolom
df['Negara_Tujuan']

# Mengambil satu kolom
df.Negara_Tujuan

# Mengambil beberapa kolom
df[['Negara_Tujuan','t_2012']]

5. MENGAMBIL BEBERAPA BARIS
# Mengambil baris ke 2
df.loc[1]

# Mengambil beberapa baris
# iloc bekerja pada index
df.iloc[1:4]


# Mengganti nilai suatu observasi
df.loc[1,'t_2012'] = 1123
6. MISSING VALUES
# Cek total missing value tiap kolom
df.isnull().sum()

# Mengganti nilai null menjadi 0
df.fillna(0,inplace=True)
7. SIMPLE MERGE (MENGGABUNGKAN DUA KOLOM ATAU LEBIH)
df1 = df[['Negara_Tujuan','t_2012']]
df2 = df[['t_2013']]
pd.concat([df1,df2],axis=1,ignore_index=True)

 

Leave a Reply

Your email address will not be published.

Related posts