Top 20 algoritama, metoda i tehnika AI i strojnog učenja

Kad sam počeo raditi s problemima strojnog učenja, tada me uhvatila panika koji bih algoritam trebao koristiti? Ili koji je jednostavan za primjenu? Ako ste poput mene, ovaj bi vam članak mogao pomoći da saznate više o algoritmima, metodama ili tehnikama umjetne inteligencije i strojnog učenja za rješavanje neočekivanih ili čak očekivanih problema.

Strojno učenje je tako moćna AI tehnika koja može učinkovito izvršiti zadatak bez korištenja eksplicitnih uputa. ML model može učiti iz svojih podataka i iskustva. Aplikacije za strojno učenje automatske su, robusne i dinamične. Razvijeno je nekoliko algoritama za rješavanje ove dinamične prirode problema iz stvarnog života. Općenito govoreći, postoje tri vrste algoritama strojnog učenja kao što su nadzirano učenje, nenadzirano učenje i učvršćivanje.

Najbolji algoritmi AI i strojnog učenja

Odabir odgovarajuće tehnike ili metode strojnog učenja jedan je od glavnih zadataka za razvoj projekta umjetne inteligencije ili strojnog učenja. Dostupnih je nekoliko algoritama i svi oni imaju svoje prednosti i korisnost. U nastavku prenosimo 20 algoritama strojnog učenja za početnike i profesionalce. Pa, pogledajmo.

1. Naivni Bayes

Naivni Bayesov klasifikator je vjerojatnosni klasifikator zasnovan na Bayesovom teoremu, uz pretpostavku neovisnosti između značajki. Te se značajke razlikuju od aplikacije do aplikacije. Jedna je od udobnih metoda strojnog učenja za vježbanje početnika.

Naivni Bayes je uvjetni model vjerojatnosti. Daje se slučaj problema koji treba klasificirati, predstavljen vektorom x = (xja … xn) predstavljajući neke n značajke (neovisne varijable), on dodjeljuje vjerojatnosti trenutne instance za svaki od K potencijalnih ishoda:

Problem gornje formulacije je da je nemoguće zasnivanje takvog modela na tablicama vjerojatnosti ako je značajka n značajna ili ako element može poprimiti velik broj vrijednosti. Stoga ponovno razvijamo model kako bismo ga učinili provodljivijim. Koristeći Bayesov teorem, uvjetna vjerojatnost može se zapisati kao,

Koristeći Bayesovu terminologiju vjerojatnosti, gornju jednadžbu možemo zapisati kao:

Ovaj algoritam umjetne inteligencije koristi se u klasifikaciji teksta, tj.e., analiza sentimenata, kategorizacija dokumenata, filtriranje neželjene pošte i klasifikacija vijesti. Ova tehnika strojnog učenja dobro se izvodi ako su ulazni podaci kategorizirani u unaprijed definirane skupine. Također, potrebno je manje podataka nego logistička regresija. Nadmašuje se u raznim domenama.

2. Podrška Vector Machine

Stroj za podršku vektorima (SVM) jedan je od najčešće korištenih nadziranih algoritama strojnog učenja u području klasifikacije teksta. Ova metoda se koristi i za regresiju. Može se nazvati i mrežom podrške vektorima. Cortes & Vapnik razvili su ovu metodu za binarnu klasifikaciju. Nadzirani model učenja pristup je strojnom učenju koji daje izlaz iz označenih podataka o treningu.

Stroj s vektorima potpore konstruira hiperravninu ili skup hiperravnina u vrlo visokom ili beskonačno dimenzionalnom području. Izračunava površinu linearnog odvajanja s maksimalnom marginom za zadani set treninga.

Samo će podskup ulaznih vektora utjecati na izbor margine (zaokruženo na slici); takvi se vektori nazivaju vektorima potpore. Kada ne postoji linearna površina za razdvajanje, na primjer, u prisutnosti bučnih podataka, prikladni su algoritmi SVM-a s labavom varijablom. Ovaj klasifikator pokušava podijeliti podatkovni prostor upotrebom linearnih ili nelinearnih razgraničenja između različitih klasa.

SVM se široko koristi u problemima klasifikacije uzoraka i nelinearnoj regresiji. Također, to je jedna od najboljih tehnika za automatsko kategoriziranje teksta. Najbolja stvar kod ovog algoritma je što ne daje nikakve čvrste pretpostavke o podacima.

Da bi se implementirao Support Vector Machine: Knjižnice znanosti o znanosti u Python-SciKit Learn, PyML, SVM^Struktura Python, LIBSVM i biblioteke znanosti podataka u R-Klar, e1071.

3. Linearna regresija

Linearna regresija izravni je pristup koji se koristi za modeliranje odnosa između ovisne varijable i jedne ili više neovisnih varijabli. Ako postoji jedna neovisna varijabla, tada se ona naziva jednostavnom linearnom regresijom. Ako je dostupno više od jedne neovisne varijable, tada se to naziva višestruka linearna regresija.

Ova se formula koristi za procjenu stvarnih vrijednosti poput cijene domova, broja poziva, ukupne prodaje na temelju kontinuiranih varijabli. Ovdje se odnos između neovisnih i ovisnih varijabli uspostavlja uklapanjem najbolje crte. Ova najprikladnija crta poznata je kao regresijska crta i predstavljena je linearnom jednadžbom

Y = a * X + b.

ovdje,

Y - ovisna varijabla
a - nagib
X - neovisna varijabla
b - presretanje

Ova metoda strojnog učenja jednostavna je za upotrebu. Izvršava se brzo. To se u poslu može koristiti za predviđanje prodaje. Također se može koristiti u procjeni rizika.

4. Logistička regresija

Evo još jednog algoritma strojnog učenja - Logistička regresija ili logit regresija koja se koristi za procjenu diskretnih vrijednosti (Binarne vrijednosti poput 0/1, da / ne, tačno / netačno) na temelju zadanog skupa neovisne varijable. Zadatak ovog algoritma je predvidjeti vjerojatnost incidenta prilagođavanjem podataka logit funkciji. Izlazne vrijednosti leže između 0 i 1.

Formula se može koristiti u raznim područjima poput strojnog učenja, znanstvene discipline i medicinskih područja. Može se koristiti za predviđanje opasnosti od nastanka određene bolesti na temelju promatranih karakteristika pacijenta. Logistička regresija može se koristiti za predviđanje želje kupca za kupnjom proizvoda. Ova tehnika strojnog učenja koristi se u prognozi vremena za predviđanje vjerojatnosti kiše.

Logističku regresiju možemo podijeliti u tri vrste -

Binarna logistička regresija
Multi-nominalna logistička regresija
Redovna logistička regresija

Logistička regresija je manje komplicirana. Također je robustan. Može se nositi s nelinearnim efektima. Međutim, ako su podaci o treningu rijetki i visoko dimenzionalni, ovaj algoritam ML može se pretjerati. Ne može predvidjeti kontinuirane ishode.

5. K-najbliži-susjed (KNN)

K-najbliži susjed (kNN) dobro je poznati statistički pristup za klasifikaciju i široko je proučavan tijekom godina, a rano je primijenjen na zadatke kategorizacije. Djeluje kao neparametarska metodologija za probleme klasifikacije i regresije.

Ova metoda AI i ML prilično je jednostavna. Određuje kategoriju testnog dokumenta t na temelju glasanja o skupu k dokumenata koji su najbliži t u smislu udaljenosti, obično euklidske udaljenosti. Osnovno pravilo odluke dano ispitnom dokumentu t za kNN klasifikator je:

Gdje je y (xi, c) binarna klasifikacijska funkcija za dokument vježbanja xi (koja vraća vrijednost 1 ako je xi označen s c ili 0 u suprotnom), ovo pravilo označava s t kategorijom koja ima najviše glasova u k -bliži kvart.

KNN nas može preslikati u naš stvarni život. Na primjer, ako želite saznati nekoliko ljudi, o kojima nemate informacija, možda biste radije odlučili u vezi s njegovim bliskim prijateljima, a time i krugovima u kojima se kreće i dobiti pristup njegovim / njezinim informacijama. Ovaj je algoritam računski skup.

6. K-znači

k-znači klasteriranje je metoda nenadziranog učenja koja je dostupna za klaster analizu u rudarstvu podataka. Svrha ovog algoritma je podijeliti n promatranja u k klastera gdje svako promatranje pripada najbližoj sredini klastera. Ovaj algoritam koristi se u segmentaciji tržišta, računalnom vidu i astronomiji, među mnogim drugim domenama.

7. Stablo odluke

Stablo odluka alat je za podršku odlučivanju koji koristi grafički prikaz, tj.e., graf nalik stablu ili model odluka. Često se koristi u analizi odluka i također je popularan alat u strojnom učenju. Stabla odluka koriste se u istraživanju operacija i upravljanju operacijama.

Ima strukturu sličnu dijagramu toka u kojoj svaki unutarnji čvor predstavlja 'test' atributa, svaka grana predstavlja rezultat testa, a svaki čvor lista oznaku klase. Put od korijena do lista poznat je kao pravila klasifikacije. Sastoji se od tri vrste čvorova:

Čvorovi odluke: obično predstavljeni kvadratima,
Čvorovi slučajnosti: obično ih predstavljaju krugovi,
Krajnji čvorovi: obično predstavljeni trokutima.

Stablo odluke jednostavno je razumjeti i protumačiti. Koristi model bijele kutije. Također, može se kombinirati s drugim tehnikama odlučivanja.

8. Slučajna šuma

Slučajna šuma popularna je tehnika učenja ansambla koja djeluje tako da konstruira mnoštvo stabala odluka u vrijeme treninga i izbaci kategoriju koja je način kategorija (klasifikacija) ili srednje predviđanje (regresija) svakog stabla.

Izvršavanje ovog algoritma strojnog učenja je brzo i može raditi s neuravnoteženim podacima koji nedostaju. Međutim, kada smo ga koristili za regresiju, ne može predvidjeti dalje od raspona u podacima o treningu i može pretjerano uklopiti podatke.

9. KOŠARICA

Stablo klasifikacije i regresije (CART) jedna je vrsta stabla odlučivanja. Stablo odluka djeluje kao rekurzivni pristup particioniranju i CART dijeli svaki ulazni čvor u dva podređena čvora. Na svakoj razini stabla odluke algoritam identificira uvjet - koja će se varijabla i razina koristiti za razdvajanje ulaznog čvora na dva podređena čvora.

Koraci algoritma CART dati su u nastavku:

Uzmi ulazne podatke
Najbolji Split
Najbolja varijabla
Podijelite ulazne podatke na lijevi i desni čvor
Nastavite korak 2-4
Obrezivanje stabla odlučivanja

10. Apriori algoritam strojnog učenja

Apriori algoritam je algoritam kategorizacije. Ova tehnika strojnog učenja koristi se za sortiranje velike količine podataka. Također se može koristiti za praćenje kako se razvijaju odnosi i grade kategorije. Ovaj algoritam je nenadzirana metoda učenja koja generira pravila pridruživanja iz zadanog skupa podataka.

Apriori algoritam strojnog učenja djeluje kao:

Ako se skup predmeta često događa, tada se često događaju i svi podskupovi skupa predmeta.
Ako se skup predmeta događa rijetko, tada se i svi supersetovi skupa predmeta rijetko pojavljuju.

Ovaj ML algoritam koristi se u raznim primjenama, poput otkrivanja nuspojava lijekova, za analizu tržišne košarice i automatsko dovršavanje aplikacija. Jednostavno je provesti.

11. Analiza glavne komponente (PCA)

Analiza glavnih komponenata (PCA) neupravljani je algoritam. Nove značajke su pravokutne, što znači da nisu u korelaciji. Prije izvođenja PCA, uvijek biste trebali normalizirati svoj skup podataka jer transformacija ovisi o mjerilu. Ako to ne učinite, značajke koje su na najznačajnijem nivou dominirat će novim glavnim komponentama.

PCA je svestrana tehnika. Ovaj algoritam je jednostavan i jednostavan za implementaciju. Može se koristiti u obradi slika.

12. CatBoost

CatBoost je algoritam strojnog učenja otvorenog koda koji dolazi od Yandexa. Naziv "CatBoost" dolazi od dvije riječi "Kategorija" i "Pojačavanje".'Može se kombinirati s dubokim okvirima učenja, tj.e., Googleov TensorFlow i Appleov Core ML. CatBoost može raditi s brojnim vrstama podataka kako bi riješio nekoliko problema.

13. Iterativni dihotomizator 3 (ID3)

Iterativni dihotomizator 3 (ID3) algoritamsko je pravilo učenja na stablu odluka koje je predstavio Ross Quinlan koje je zaposleno za opskrbu stablom odluka iz skupa podataka. Preteča je C4.5 algoritamski program i zaposlen je unutar domena procesa strojnog učenja i jezične komunikacije.

ID3 se može pretjerati u podatke o treningu. Ovo algoritamsko pravilo teže je koristiti na kontinuiranim podacima. Ne garantira optimalno rješenje.

14. Hijerarhijsko klasteriranje

Hijerarhijsko grupiranje način je klasterske analize. U hijerarhijskom klasteriranju razvijeno je stablo klastera (dendrogram) za ilustraciju podataka. U hijerarhijskom klasteriranju svaka grupa (čvor) povezuje se s dvije ili više skupina nasljednica. Svaki čvor unutar stabla klastera sadrži slične podatke. Čvorovi se grupiraju na grafikonu pored drugih sličnih čvorova.

Algoritam

Ova metoda strojnog učenja može se podijeliti u dva modela - odozdo prema gore ili odozgo prema dolje:

Dno prema gore (hijerarhijsko aglomerativno grupiranje, HAC)

Na početku ove tehnike strojnog učenja, uzmite svaki dokument kao jednu skupinu.
U novom klasteru spojene su dvije stavke odjednom. Način spajanja kombinacija uključuje kalkulacijsku razliku između svakog ugrađenog para i stoga alternativnih uzoraka. Postoji mnogo mogućnosti za to. Neki od njih su:

a. Kompletna veza: Sličnost najudaljenijeg para. Jedno ograničenje je da bi izvanredni iznosi mogli dovesti do spajanja uskih skupina kasnije nego što je optimalno.

b. Jednostruka veza: Sličnost najbližeg para. To može uzrokovati prerano spajanje, premda su te skupine prilično različite.

c. Prosjek grupe: sličnost među skupinama.

d. Sličnost centroida: svaka iteracija spaja klastere s najistaknutijom sličnom središnjom točkom.

Dok se sve stavke ne stope u jedan klaster, postupak uparivanja traje.

Odozgo (grupno razdvajanje)

Podaci započinju kombiniranim klasterom.
Skupina se dijeli na dva različita dijela, prema nekom stupnju sličnosti.
Klasteri se uvijek iznova dijele na dva dijela sve dok klasteri ne sadrže samo jednu podatkovnu točku.

15. Povratno razmnožavanje

Povratno širenje nadzirani je algoritam učenja. Ovaj ML algoritam dolazi iz područja ANN-a (umjetnih neuronskih mreža). Ova je mreža višeslojna povratna mreža. Ova tehnika ima za cilj oblikovanje zadane funkcije modificiranjem unutarnjih težina ulaznih signala kako bi se dobio željeni izlazni signal. Može se koristiti za klasifikaciju i regresiju.

Algoritam povratnog širenja ima neke prednosti, tj.e., lako ga je implementirati. Matematička formula koja se koristi u algoritmu može se primijeniti na bilo koju mrežu. Vrijeme izračunavanja može se smanjiti ako su ponderi mali.

Algoritam povratnog širenja ima neke nedostatke, jer može biti osjetljiv na bučne podatke i odstupanja. To je u potpunosti zasnovan na matrici. Stvarne performanse ovog algoritma u potpunosti ovise o ulaznim podacima. Izlaz može biti numerički.

16. AdaBoost

AdaBoost znači Adaptive Boosting, metodu strojnog učenja koju predstavljaju Yoav Freund i Robert Schapire. To je meta-algoritam i može se integrirati s drugim algoritmima učenja kako bi se poboljšala njihova izvedba. Ovaj algoritam je brz i jednostavan za upotrebu. Dobro funkcionira s velikim skupovima podataka.

17. Duboko učenje

Duboko učenje skup je tehnika nadahnutih mehanizmom ljudskog mozga. Dva osnovna duboka učenja, t.j.e., U klasifikaciji teksta koriste se konvolucijske neuronske mreže (CNN) i periodične neuronske mreže (RNN). Algoritmi dubokog učenja poput Word2Vec ili GloVe također se koriste za dobivanje visoko rangiranih vektorskih prikaza riječi i poboljšanje točnosti klasifikatora koji se uvježbava s tradicionalnim algoritmima strojnog učenja.

Ovoj metodi strojnog učenja potrebno je mnogo uzorka treninga umjesto tradicionalnih algoritama strojnog učenja, tj.e., minimum milijuna označenih primjera. Suprotno tome, tradicionalne tehnike strojnog učenja dosežu precizan prag gdje god dodavanje više uzoraka treninga ne poboljšava njihovu ukupnu točnost. Klasifikatori dubinskog učenja nadmašuju bolji rezultat s više podataka.

18. Algoritam za pojačavanje gradijenta

Pojačavanje gradijenta metoda je strojnog učenja koja se koristi za klasifikaciju i regresiju. To je jedan od najsnažnijih načina za razvoj prediktivnog modela. Algoritam pojačanja gradijenta ima tri elementa:

Funkcija gubitka
Slab učenik
Aditivni model

19. Mreža Hopfield

Hopfieldova mreža je jedna vrsta rekurentnih umjetnih neuronskih mreža koju je John Hopfield dao 1982. godine. Cilj ove mreže je pohraniti jedan ili više uzoraka i prisjetiti se cjelovitih uzoraka na temelju djelomičnog unosa. U Hopfield mreži svi su čvorovi i ulazi i izlazi i potpuno su međusobno povezani.

20. C4.5

C4.5 je stablo odluke koje je izumio Ross Quinlan. Njegova nadogradnja verzija ID3. Ovaj algoritamski program obuhvaća nekoliko osnovnih slučajeva:

Svi uzorci s popisa pripadaju sličnoj kategoriji. Stvara čvor lista za stablo odlučivanja koje kaže da će odlučiti o toj kategoriji.
Stvara čvor odluke iznad stabla koristeći očekivanu vrijednost klase.
Stvara čvor odluke iznad stabla koristeći očekivanu vrijednost.

Završavajući misli

Vrlo je bitno koristiti odgovarajući algoritam zasnovan na vašim podacima i domeni za razvoj učinkovitog projekta strojnog učenja. Također, razumijevanje kritične razlike između svakog algoritma strojnog učenja od ključne je važnosti za rješavanje „kad odaberem koji.'Kao što je, u pristupu strojnom učenju, stroj ili uređaj naučio kroz algoritam učenja. Čvrsto vjerujem da vam ovaj članak pomaže da razumijete algoritam. Ako imate prijedlog ili upit, slobodno pitajte. Nastavi čitati.