Ma’lumotlarga dastlabki ishlov berish. Ma’lumotlarni tozalash. Ma’lumotlar butunligini ta’minlash



Download 1,01 Mb.
Sana08.04.2022
Hajmi1,01 Mb.
#537020
Bog'liq
5-maruza


Ma’lumotlarga dastlabki ishlov berish. Ma’lumotlarni tozalash. Ma’lumotlar butunligini ta’minlash.
Python dasturlash muhutida ma'lumotlarni qayta ishlash-ma'lumotlarni oldindan qayta ishlash ma'lumotlarni ishlab chiqarish uchun ko'proq moslashtirish uchun qilingan qadamlarni anglatadi. Ma'lumotlarni oldindan qayta ishlash uchun qo'llaniladigan bosqichlar odatda ikkita toifaga bo'linadi:

Python yordamida ma’lumotlarga oldindan ishlov berish usullarini amalga oshirish quyudagicha:

  • Kutubxonalarni import qilish

  • Maʼlumotlar toʻplamini import qilish

  • Yetishmayotgan maʼlumotlarni qayta ishlash

  • Kategorik maʼlumotlarni qayta ishlash

  • Maʼlumotlar toʻplamini oʻquv va test maʼlumotlar toʻplamiga boʻlish

  • Masshtablash funksiyalari

Ushbu ma'lumotlarni qayta ishlash uchun quyidagi kodni yozish uchun Anaconda Navigatori, xususan Spyder-dan foydalanish kerak. Agar siz Anaconda Navigator-ni birinchi marta ishga tushirganingizda Spyder o'rnatilmagan bo'lsa, uni foydalanuvchi interfeysi yordamida osongina o'rnatishingiz mumkin.
Agar sizda oldindan Python kodingiz bo'lmasa, sizga Python asoslarini o'rganishingizni va keyin shu erda boshlashingizni tavsiya qilinadi.
Kutubxonalarni import qilish.
# librariesimport numpy as np
# used for handling numbers import pandas as pd
# used for handling the datasetfrom sklearn.impute import SimpleImputer
# used for handling missing datafrom sklearn.preprocessing import LabelEncoder, OneHotEncoder
# used for encoding categorical datafrom sklearn.model_selection import train_test_split
# used for splitting training and testing datafrom sklearn.preprocessing import StandardScaler
# used for feature scaling

Yuqoridagi kodni Spyder-da tanlasangiz va ishga tushirsangiz, IPython konsolida shunga o'xshash chiqishni ko'rishingiz kerak.
Import xatosini ko'rsangiz, quyidagi tarzda pip buyrug'i yordamida ushbu paketlarni aniq o'rnatishga harakat qiling.
pip install

Ma'lumotlar to'plami import qilinmoqda - avvalo, ushbu misol uchun foydalanmoqchi bo'lgan ma'lumotlar to'plamini ko'rib chiqaylik. Ma'lumotlar to'plami quyudagilar.



Ushbu ma'lumotlar to'plamini skriptimizga import qilish uchun biz pandalardan quyidagi tarzda foydalanamiz.
dataset = pd.read_csv('Data.csv') # to import the dataset into a
variable# Splitting the attributes into independent and dependent attributes
X = dataset.iloc[:, :-1].values # attributes to determine dependent variable / Class
Y = dataset.iloc[:, -1].values # dependent variable / Class
Kodning ushbu qismini ishga tushirganimizda, skript va data.csv bir papkada ekanligi va hech qanday xatolik ko'rmasligingiz kerak. Muvaffaqiyatli bo'lgach, siz Spyder interfeysidagi Variable Explorer-ga o'tishingiz va quyidagi uchta o'zgaruvchini ko'rishingiz mumkin.

Ushbu o'zgaruvchilarning har biriga ikki marta bosganingizda, shunga o'xshash narsani ko'rasiz.


Ma'lumotlarni tahlil qilish Python-Ma'lumotlarni tozalash
Ko'pincha, biz olgan ma'lumotlar tekshirilgandan keyin hal etilmaydigan muammolarga duch kelasiz. Ayni paytda siz asl ma'lumotlarni o'zgartirishingiz va qayta tartiblashingiz kerak bo'lishi mumkin. Masalan: Python maydoni nomini o'zgartirish, ustun nomini tanlashni o'zgartirish, indeksni qayta o'rnatish, chetni almashtirish, ma'lumotlar turini o'zgartirish, ma'lumotlarni birlashtirish va h.k. Biroq, asosan, ba'zi umumiy usullar bilan tanishish lozim bo’ladi ular quyudagicha.:

  • Birinchidan, ma'lumotlarni tozalang

  • Ustun nomini o'zgartiring

  • Indeksni o'zgartiring

  • Kontentni o'zgartirish

  • Ma'lumotlar turini o'zgartiring

  • Ikkinchidan, kod holati

  • Ustun nom / o'zgartirish indeksi

  • Ma'lumotlar turini konvertatsiya qilish holati

Birinchidan, ma'lumotlarni tozalang- Ustun nomini o'zgartirish

df.columns = [‘a’,’b’,’c’]

Ustun nomlarini o'zgartiring, hamma narsani birgalikda o'zgartiring

df.rename(columns={‘a’: ‘A’, ‘b’: ‘B’, ‘c’: ‘C’}, inplace=True)

Ba'zi ustun nomlarini o'zgartiring, inplace = True va to'g'ridan-to'g'ri ustiga yozing

df.set_index(‘col1’)

Belgilangan ustunni indeksga aylantirish uchun indeks ustunini o'zgartiring

Indeksni o'zgartirish



df.set_index(‘column_one’)

Ustun indeksini o'zgartiring, ustun indeksga aylanadi

df.reset_index()

Indeksni tushirish uchun indeksni ustun yoki atributga aylantirish drop=true

Kontentni o'zgartirish



pd.isnull()

DataFrame-da null qiymatlarni tekshiring va mantiqiy massivni qaytaring

pd.notnull()

DataFrame-da null bo'lmagan qiymatni tekshiring va mantiqiy massivni qaytaring

df.dropna()

Null NaN qiymatlarini o'z ichiga olgan barcha qatorlarni olib tashlang

df.dropna(axis=1)

Null NaN qiymatlarini o'z ichiga olgan barcha ustunlarni olib tashlang

df.dropna(axis=1,thresh=n)

Nulga teng bo'lmagan N qiymatlari bo'lgan barcha qatorlarni o'chiring

df.fillna(x)

DataFrame-dagi barcha bo'sh NAN qiymatlarini x bilan almashtiring

df/s.replace(1,’one’)

Barcha qiymatlarni "bitta" 1ga tenglarini almashtiring, df va s uchun ham xuddi shunday

df/s.replace([1,3],[‘one’,’three’])

1 raqamini "bir" va 3 raqamini "uch" bilan almashtiring

Ma'lumotlar turini o'zgartiring - ma'lumotlarning asosiy turlari: int (butun son turi), float (suzuvchi nuqta turi), str (string turi)



s.astype(‘float’)

Seriyadagi ma'lumotlar turini suzuvchi nuqtaga o'zgartiring, astype qattiq konvertatsiya deb ham ataladi

df.astype(‘str’)

Barcha jadvalni konvertatsiya qilish str turiga aylantiring

df[[‘col1’,’col2’]].astype(‘int’)

ma'lumotlarni konvertatsiya qilish col1 va col2,df formatiga int formatiga o'zgartiring

pd.to_numeric(s)

Seriyalarni avtomatik ravishda raqam formatiga o'tkazish

df.infer_objects()

Ma'lumotlar turini avtomatik aniqlash

Ustun nomi / o'zgartirish indeksi



import pandas as pd # Pd kutubxonasini import qilish
data=pd.read_csv(r'/Users/huangjunwen/Desktop/test.csv')# Mahalliy CSV maʼlumotlar faylini import qiling
print(data.info())#Avval har bir ma'lumot ustunining ma'lumotlar turini tekshiring va hokazo.
Download 1,01 Mb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish