pande

Kako ispustiti dvostruke redove u Pandas Python

Kako ispustiti dvostruke redove u Pandas Python
Python je jedan od najpopularnijih programskih jezika za analizu podataka i također podržava razne Python pakete usmjerene na podatke. Paketi Pandas neki su od najpopularnijih Python paketa i mogu se uvesti za analizu podataka. U gotovo svim skupovima podataka često postoje duplicirani redovi, što može uzrokovati probleme tijekom analize podataka ili aritmetičke operacije. Najbolji pristup za analizu podataka je identificiranje dupliciranih redaka i njihovo uklanjanje iz skupa podataka. Pomoću funkcije Pandas drop_duplicates () možete lako ispustiti ili ukloniti duplicirane zapise iz okvira podataka.
Ovaj vam članak pokazuje kako pronaći duplikate u podacima i ukloniti duplikate pomoću funkcija Pandas Python.

U ovom smo članku uzeli skup podataka stanovništva različitih država u Sjedinjenim Državama, koji je dostupan u .csv format datoteke. Čitat ćemo .csv datoteku za prikaz izvornog sadržaja ove datoteke, kako slijedi:

uvoziti pande kao pd
df_state = pd.read_csv ("C: / Korisnici / DELL / Desktop / populacija_ds.csv ")
ispis (df_state)

Na sljedećem snimku zaslona možete vidjeti duplicirani sadržaj ove datoteke:

Prepoznavanje duplikata u Pandas Pythonu

Potrebno je utvrditi imaju li podaci koje upotrebljavate duplicirane retke. Da biste provjerili dupliciranje podataka, možete upotrijebiti bilo koji od načina obrađenih u sljedećim odjeljcima.

Metoda 1:

Pročitajte csv datoteku i prenesite je u okvir podataka. Zatim identificirajte duplicirane retke pomoću duplicirano () funkcija. Na kraju, upotrijebite iskaz za ispis da biste prikazali dvostruke retke.

uvoziti pande kao pd
df_state = pd.read_csv ("C: / Korisnici / DELL / Desktop / populacija_ds.csv ")
Dup_Rows = df_state [df_state.duplicirano ()]
print ("\ n \ nDvostruki redovi: \ n ".format (Dup_Rows))

Metoda 2:

Koristeći ovu metodu, je_dvostručen stupac će se dodati na kraj tablice i označiti kao "True" u slučaju dupliciranih redaka.

uvoziti pande kao pd
df_state = pd.read_csv ("C: / Korisnici / DELL / Desktop / populacija_ds.csv ")
df_state ["is_duplicate"] = df_state.duplicirano ()
ispis ("\ n ".format (df_state))

Ispuštanje duplikata u Pandas Python

Duplicirani retci mogu se ukloniti iz vašeg podatkovnog okvira pomoću sljedeće sintakse:
drop_duplicates (subset = ", keep =", inplace = False)
Gore navedena tri parametra nisu obavezna i detaljnije su objašnjena u nastavku:
zadržati: ovaj parametar ima tri različite vrijednosti: First, Last i False. Prva vrijednost zadržava prvu pojavu i uklanja naknadne duplikate, zadnja vrijednost zadržava samo posljednju pojavu i uklanja sve prethodne duplikate, a vrijednost False uklanja sve duplicirane retke.
podskup: oznaka koja se koristi za identificiranje dupliciranih redova
na mjestu: sadrži dva uvjeta: True i False. Ovaj će parametar ukloniti duplicirane retke ako je postavljen na True.

Uklonite duplikate zadržavajući samo prvu pojavu

Kada koristite "keep = first", zadržat će se samo pojavljivanje prvog retka, a svi ostali duplikati uklonit će se.

Primjer

U ovom će se primjeru zadržati samo prvi redak, a preostali će se duplikati izbrisati:

uvoziti pande kao pd
df_state = pd.read_csv ("C: / Korisnici / DELL / Desktop / populacija_ds.csv ")
Dup_Rows = df_state [df_state.duplicirano ()]
print ("\ n \ nDvostruki redovi: \ n ".format (Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates (keep = 'first')
print ('\ n \ nRezultat podatkovnog okvira nakon uklanjanja duplikata: \ n', DF_RM_DUP.glava (n = 5))

Na sljedećem snimku zaslona zadržani događaj prvog retka označen je crvenom bojom, a preostale duplikate uklonjene su:

Uklonite duplikate zadržavajući samo posljednju pojavu

Kada koristite "keep = last", uklonit će se svi duplicirani retci, osim posljednjeg pojavljivanja.

Primjer

U sljedećem primjeru uklanjaju se svi duplicirani retci, osim samo posljednjeg pojavljivanja.

uvoziti pande kao pd
df_state = pd.read_csv ("C: / Korisnici / DELL / Desktop / populacija_ds.csv ")
Dup_Rows = df_state [df_state.duplicirano ()]
print ("\ n \ nDvostruki redovi: \ n ".format (Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates (keep = 'last')
print ('\ n \ nRezultat okvira podataka nakon uklanjanja duplikata: \ n', DF_RM_DUP.glava (n = 5))

Na sljedećoj su slici duplikati uklonjeni i zadržava se samo posljednji redak:

Ukloni sve duplikate redaka

Da biste uklonili sve dvostruke retke iz tablice, postavite "keep = False" kako slijedi:

uvoziti pande kao pd
df_state = pd.read_csv ("C: / Korisnici / DELL / Desktop / populacija_ds.csv ")
Dup_Rows = df_state [df_state.duplicirano ()]
print ("\ n \ nDvostruki redovi: \ n ".format (Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates (keep = False)
print ('\ n \ nRezultat okvira podataka nakon uklanjanja duplikata: \ n', DF_RM_DUP.glava (n = 5))

Kao što možete vidjeti na sljedećoj slici, svi se duplikati uklanjaju iz okvira podataka:

Uklonite povezane duplikate iz određenog stupca

Prema zadanim postavkama, funkcija provjerava sve duplicirane retke iz svih stupaca u danom podatkovnom okviru. Ali, naziv stupca možete odrediti i pomoću parametra podskupa.

Primjer

U sljedećem primjeru svi povezani duplikati uklanjaju se iz stupca 'Države'.

uvoziti pande kao pd
df_state = pd.read_csv ("C: / Korisnici / DELL / Desktop / populacija_ds.csv ")
Dup_Rows = df_state [df_state.duplicirano ()]
print ("\ n \ nDvostruki redovi: \ n ".format (Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates (subset = 'State')
print ('\ n \ nRezultat okvira podataka nakon uklanjanja duplikata: \ n', DF_RM_DUP.glava (n = 6))

Zaključak

Ovaj vam je članak pokazao kako ukloniti duplicirane retke iz okvira podataka pomoću drop_duplicates () funkcija u Pandas Pythonu. Pomoću ove funkcije također možete očistiti podatke od umnožavanja ili suvišnosti. Članak vam je također pokazao kako prepoznati sve duplikate u vašem podatkovnom okviru.

HD Remastered igre za Linux koje ranije nisu imale Linux izdanje
Mnogi programeri i izdavači igara dolaze s HD remasterom starih igara kako bi produžili životni vijek franšize, molimo obožavatelje da zatraže kompati...
Kako koristiti AutoKey za automatizaciju Linux igara
AutoKey je uslužni program za automatizaciju radne površine za Linux i X11, programiran na Python 3, GTK i Qt. Koristeći njegovu skriptiranje i MACRO ...
Kako prikazati brojač FPS-a u Linux igrama
Linux gaming dobio je velik poticaj kada je Valve najavio Linux podršku za Steam klijent i njihove igre 2012. godine. Od tada su mnoge AAA i indie igr...