Ma’lumotlarga dastlabki ishlov berish. Ma’lumotlarni tozalash. Ma’lumotlar butunligini ta’minlash.
Python dasturlash muhutida ma'lumotlarni qayta ishlash-ma'lumotlarni oldindan qayta ishlash ma'lumotlarni ishlab chiqarish uchun ko'proq moslashtirish uchun qilingan qadamlarni anglatadi. Ma'lumotlarni oldindan qayta ishlash uchun qo'llaniladigan bosqichlar odatda ikkita toifaga bo'linadi:
tahlil qilish uchun maʼlumotlar obyektlari va atributlarini tanlash
atributlarni yaratish/oʻzgartirish.
Python yordamida ma’lumotlarga oldindan ishlov berish usullarini amalga oshirish quyudagicha:
Kutubxonalarni import qilish
Maʼlumotlar toʻplamini import qilish
Yetishmayotgan maʼlumotlarni qayta ishlash
Kategorik maʼlumotlarni qayta ishlash
Maʼlumotlar toʻplamini oʻquv va test maʼlumotlar toʻplamiga boʻlish
Masshtablash funksiyalari
Ushbu ma'lumotlarni qayta ishlash uchun quyidagi kodni yozish uchun Anaconda Navigatori, xususan Spyder-dan foydalanish kerak. Agar siz Anaconda Navigator-ni birinchi marta ishga tushirganingizda Spyder o'rnatilmagan bo'lsa, uni foydalanuvchi interfeysi yordamida osongina o'rnatishingiz mumkin.
Agar sizda oldindan Python kodingiz bo'lmasa, sizga Python asoslarini o'rganishingizni va keyin shu erda boshlashingizni tavsiya qilinadi.
Kutubxonalarni import qilish.
# librariesimport numpy as np
# used for handling numbers import pandas as pd
# used for handling the datasetfrom sklearn.impute import SimpleImputer
# used for handling missing datafrom sklearn.preprocessing import LabelEncoder, OneHotEncoder
# used for encoding categorical datafrom sklearn.model_selection import train_test_split
# used for splitting training and testing datafrom sklearn.preprocessing import StandardScaler
# used for feature scaling
Yuqoridagi kodni Spyder-da tanlasangiz va ishga tushirsangiz, IPython konsolida shunga o'xshash chiqishni ko'rishingiz kerak.
Import xatosini ko'rsangiz, quyidagi tarzda pip buyrug'i yordamida ushbu paketlarni aniq o'rnatishga harakat qiling.
pip install
Ma'lumotlar to'plami import qilinmoqda - avvalo, ushbu misol uchun foydalanmoqchi bo'lgan ma'lumotlar to'plamini ko'rib chiqaylik. Ma'lumotlar to'plami quyudagilar.
Ushbu ma'lumotlar to'plamini skriptimizga import qilish uchun biz pandalardan quyidagi tarzda foydalanamiz.
dataset = pd.read_csv('Data.csv') # to import the dataset into a
variable# Splitting the attributes into independent and dependent attributes
X = dataset.iloc[:, :-1].values # attributes to determine dependent variable / Class
Y = dataset.iloc[:, -1].values # dependent variable / Class
Kodning ushbu qismini ishga tushirganimizda, skript va data.csv bir papkada ekanligi va hech qanday xatolik ko'rmasligingiz kerak. Muvaffaqiyatli bo'lgach, siz Spyder interfeysidagi Variable Explorer-ga o'tishingiz va quyidagi uchta o'zgaruvchini ko'rishingiz mumkin.
Ushbu o'zgaruvchilarning har biriga ikki marta bosganingizda, shunga o'xshash narsani ko'rasiz.
Ma'lumotlarni tahlil qilish Python-Ma'lumotlarni tozalash
Ko'pincha, biz olgan ma'lumotlar tekshirilgandan keyin hal etilmaydigan muammolarga duch kelasiz. Ayni paytda siz asl ma'lumotlarni o'zgartirishingiz va qayta tartiblashingiz kerak bo'lishi mumkin. Masalan: Python maydoni nomini o'zgartirish, ustun nomini tanlashni o'zgartirish, indeksni qayta o'rnatish, chetni almashtirish, ma'lumotlar turini o'zgartirish, ma'lumotlarni birlashtirish va h.k. Biroq, asosan, ba'zi umumiy usullar bilan tanishish lozim bo’ladi ular quyudagicha.:
Birinchidan, ma'lumotlarni tozalang
Ustun nomini o'zgartiring
Indeksni o'zgartiring
Kontentni o'zgartirish
Ma'lumotlar turini o'zgartiring
Ikkinchidan, kod holati
Ustun nom / o'zgartirish indeksi
Ma'lumotlar turini konvertatsiya qilish holati
Birinchidan, ma'lumotlarni tozalang- Ustun nomini o'zgartirish
df.columns = [‘a’,’b’,’c’]
|
Ustun nomlarini o'zgartiring, hamma narsani birgalikda o'zgartiring
|
df.rename(columns={‘a’: ‘A’, ‘b’: ‘B’, ‘c’: ‘C’}, inplace=True)
|
Ba'zi ustun nomlarini o'zgartiring, inplace = True va to'g'ridan-to'g'ri ustiga yozing
|
df.set_index(‘col1’)
|
Belgilangan ustunni indeksga aylantirish uchun indeks ustunini o'zgartiring
|
Indeksni o'zgartirish
df.set_index(‘column_one’)
|
Ustun indeksini o'zgartiring, ustun indeksga aylanadi
|
df.reset_index()
|
Indeksni tushirish uchun indeksni ustun yoki atributga aylantirish drop=true
|
Kontentni o'zgartirish
pd.isnull()
|
DataFrame-da null qiymatlarni tekshiring va mantiqiy massivni qaytaring
|
pd.notnull()
|
DataFrame-da null bo'lmagan qiymatni tekshiring va mantiqiy massivni qaytaring
|
df.dropna()
|
Null NaN qiymatlarini o'z ichiga olgan barcha qatorlarni olib tashlang
|
df.dropna(axis=1)
|
Null NaN qiymatlarini o'z ichiga olgan barcha ustunlarni olib tashlang
|
df.dropna(axis=1,thresh=n)
|
Nulga teng bo'lmagan N qiymatlari bo'lgan barcha qatorlarni o'chiring
|
df.fillna(x)
|
DataFrame-dagi barcha bo'sh NAN qiymatlarini x bilan almashtiring
|
df/s.replace(1,’one’)
|
Barcha qiymatlarni "bitta" 1ga tenglarini almashtiring, df va s uchun ham xuddi shunday
|
df/s.replace([1,3],[‘one’,’three’])
|
1 raqamini "bir" va 3 raqamini "uch" bilan almashtiring
|
Ma'lumotlar turini o'zgartiring - ma'lumotlarning asosiy turlari: int (butun son turi), float (suzuvchi nuqta turi), str (string turi)
s.astype(‘float’)
|
Seriyadagi ma'lumotlar turini suzuvchi nuqtaga o'zgartiring, astype qattiq konvertatsiya deb ham ataladi
|
df.astype(‘str’)
|
Barcha jadvalni konvertatsiya qilish str turiga aylantiring
|
df[[‘col1’,’col2’]].astype(‘int’)
|
ma'lumotlarni konvertatsiya qilish col1 va col2,df formatiga int formatiga o'zgartiring
|
pd.to_numeric(s)
|
Seriyalarni avtomatik ravishda raqam formatiga o'tkazish
|
df.infer_objects()
|
Ma'lumotlar turini avtomatik aniqlash
|
Ustun nomi / o'zgartirish indeksi
import pandas as pd # Pd kutubxonasini import qilish
data=pd.read_csv(r'/Users/huangjunwen/Desktop/test.csv')# Mahalliy CSV maʼlumotlar faylini import qiling
print(data.info())#Avval har bir ma'lumot ustunining ma'lumotlar turini tekshiring va hokazo.
Do'stlaringiz bilan baham: |