Machine Learning Engineer worden | Stap 4: Oefenen, oefenen, oefenen

De beste methode om snel essentiële vaardigheden voor machine learning op te doen, is oefenen met het opbouwen van uw vaardigheden met kleine, gemakkelijk te begrijpen datasets. Deze techniek helpt u bij het bouwen van uw processen met behulp van interessante, realistische gegevens die klein genoeg zijn om naar te kijken in excel of WEKA. In dit artikel leert u over een hoogwaardige database met veel datasets en enkele tips om u te helpen uw tijd te concentreren op wat voor u belangrijk is!

Waarom oefenen met datasets?

Door online tutorials te volgen, blijf je gevangen in een afhankelijke mindset die je groei beperkt omdat je niet leert HOE je een probleem kunt oplossen. Je leert hoe je een specifieke oplossing kunt toepassen op een bepaald type probleem. Het is het equivalent van overfitting, waarvan we allemaal weten dat het leidt tot slechte prestaties in de echte wereld. Als u geïnteresseerd bent om een ​​machine learning engineer te worden, moet u ervoor zorgen dat u kunt generaliseren naar echte gegevens. Daag jezelf elke dag uit en val problemen aan met behulp van een gedefinieerd proces. Het oefenen van je vaardigheden met behulp van datasets is de beste manier om dit te doen.

Waar krijg ik datasets?

Gelukkig voor iedereen is er een fantastische repository van problemen met machine learning waar je gratis toegang toe hebt.

UCI Machine Learning Repository

Het Centre for machine learning en intelligente systemen aan de Universiteit van Californië, Irvine bouwde de UCI-machine learning repository. Al 30 jaar is het dé plek voor onderzoekers van machine learning en studenten voor machine learning die datasets nodig hebben om te oefenen. U kunt alle beschikbare datasets op hun webpagina downloaden. Ze geeft ook alle details weer, inclusief publicaties die het hebben gebruikt, wat erg handig is als je wilt weten dat onderzoekers het probleem hebben aangevallen. De datasets kunnen ook op verschillende manieren worden gedownload (CSV / TXT).

Er zijn slechts twee nadelen aan de UCI-gegevenssets.

  1. Het andere nadeel is dat ze klein zijn, zodat je niet veel ervaring zult opdoen met grootschalige projecten, maar dat maakt niet uit want jullie zijn hier nieuw in! Begin klein!
  2. Het belangrijkste nadeel is dat deze datasets worden opgeschoond en voorverwerkt. Reiniging en voorbewerking zijn essentiële onderdelen van het machine-leerproces waarmee u in uw carrière te maken zult krijgen. Als je geen tijd besteedt aan het oefenen van deze vaardigheid, zul je later op de weg pijn doen.

Gericht oefenen

Hoe oefen je op een gerichte manier als er zoveel datasets zijn? Een ambitieuze ingenieur voor machine learning zou het beste kunnen uitzoeken wat hun doelen zijn en een dataset kiezen die hen het beste zou bereiken. Ik heb een aantal vragen ontwikkeld die je jezelf kunt stellen om het aantal datasets te beperken.

  • Wat voor soort probleem wil je oplossen?
  • Regressie, classificatie, regressie, clustering?
  • Hoe groot is de dataset? Tientallen datapunten of miljoenen
  • Hoeveel functies heeft de dataset?
  • Wat voor soort functies?
  • Van welk domein is deze dataset?

Zoek uit op welk type datasets u zich wilt richten om overeen te komen met uw bredere doelen. Zodra u dit heeft, zou u door het enorme aantal datasets moeten kunnen filteren die beschikbaar zijn op het platform.

Voorbeeldproblemen

Maak je geen zorgen als je niet zeker weet wat je probeert te leren. Het is veel beter om niet vast te lopen bij het vinden van het perfecte studieplan. Ik heb een lijst gemaakt van enkele datasets die u misschien interessant vindt. Er zijn hier een paar soorten problemen, dus probeer ze allemaal.

Regressie: http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Clustering: https://archive.ics.uci.edu/ml/datasets/Bag+of+Words

Classificatie: http://archive.ics.uci.edu/ml/datasets/Wine

Gezondheidsclassificatie: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

Maar..

Ik denk niet dat ik hier de vaardigheden voor heb of ik heb het gevoel dat iets me ervan weerhoudt om te beginnen!
Het is OK om van tijd tot tijd aan jezelf te twijfelen, maar je kunt je niet laten stoppen met je doelen om een ​​machine learning engineer te worden. Tijd om je mindset aan te passen.

Ik weet niet hoe ik moet programmeren!
Dat is prima, want mijn artikel "Machine-ingenieur worden | Stap 3: kies een tool gaat over een tool die geen programmeervaardigheden nodig heeft om te gebruiken en waarmee u veel machine learning-algoritmen kunt implementeren.

Waar zou ik zelfs beginnen als het gaat om het oplossen van de problemen?
Een proces waarmee u naar elk probleem kunt kijken, is super belangrijk, en ik geloof dat het leren van dat proces beter is dan leren over hoe back-propagation werkt. Bekijk mijn artikel waar ik in detail ga over het kiezen van een proces. Link om een ​​proces te kiezen

Ik denk niet dat ik dit alleen zou kunnen doen?
Zelf leren leren is niet de beste manier om te leren. Deelnemen aan een groep gelijkgestemde individuen zal wonderen doen in de richting van uw vermogen om te leren. Lees dit artikel voor meer informatie.

Afhaal

Als je serieus bent over zelfstudie, overweeg dan om een ​​bescheiden lijst met datasets te maken die je verder wilt onderzoeken. Volg het gerichte oefenplan om een ​​waardevolle basis te leggen voor het duiken in meer complexe en opwindende problemen met machine learning.

Bedankt voor het lezen :) Als je het leuk vond, druk dan op die klapknop hieronder en volg me! Het zou veel voor me betekenen en me aanmoedigen om meer van dit soort verhalen te schrijven

Laten we ook verbinding maken op Twitter, LinkedIn of e-mail