De vijf beste frameworks voor datawetenschappers

Er zijn veel tools die u kunnen helpen bij het starten van uw carrière in de gegevenswetenschap. Sommige van deze tools zul je ze bijna in elk nieuw project gebruiken. In dit bericht presenteren we u vijf hulpmiddelen en technologieën die u kunnen helpen om u onder te dompelen in de wereld van de gegevenswetenschap en die handig zijn voor machine learning of big data-problemen.

Scikit leren

Scikit-learn is een zeer populaire en zeer goed gedocumenteerde open-source machine learning-bibliotheek met algoritmen, met als doel een reeks gemeenschappelijke algoritmen te bieden aan Python-gebruikers via een consistente interface. Het wordt snel een startkader voor machine learning, omdat het voortdurend evolueert met nieuwe modellen, efficiëntieverbeteringen op snelheid en geheugen en grote gegevensmogelijkheden. Hoewel scikit-learn over het algemeen wordt gebruikt voor kleinere gegevens, biedt het wel een behoorlijke set algoritmen voor out-of-core classificatie, regressie, clustering en ontleding.

Vanaf oktober 2018 is het verwachte gemiddelde salaris jaarlijks bijna $ 140.000, met grote namen zoals Amazon, IBM, onder andere actief op zoek naar datawetenschappers die zich daarin specialiseren.

Pandas

Pandas is een Python-pakket dat is ontworpen om eenvoudig en intuïtief te werken met "gelabelde" en "relationele" gegevens. Panda's is een perfect hulpmiddel voor het wrangelen van gegevens, ontworpen voor snelle en eenvoudige gegevensmanipulatie, aggregatie en visualisatie. Een gemakkelijke manier om aan Panda's te denken, is door het eenvoudigweg te beschouwen als Pythons versie van Microsoft's Excel.

Panda's blinkt uit met praktische data-analyse in financiën, statistiek, sociale wetenschappen en engineering. Panda's werken goed met onvolledige, rommelige en niet-geëtiketteerde gegevens (d.w.z. het soort gegevens dat u waarschijnlijk in de echte wereld zult tegenkomen) en biedt hulpmiddelen voor het vormen, samenvoegen, opnieuw vormen en snijden van gegevenssets. Veel banen van analisten en Python-specialisten zoeken mensen die goed thuis zijn in Panda's.

TensorFlow

TensorFlow is een paar jaar geleden ontwikkeld door Google en is een open source softwarebibliotheek voor numerieke berekeningen met behulp van gegevensstroomgrafieken. Knopen in de grafiek vertegenwoordigen wiskundige bewerkingen, terwijl de grafiekranden de multidimensionale gegevensreeksen (tensoren) vertegenwoordigen die onderling zijn gecommuniceerd.

TensorFlow is misschien wel een van de beste deep learning-frameworks en is door verschillende reuzen zoals Airbus, Twitter, IBM en anderen overgenomen, voornamelijk vanwege de zeer flexibele en modulaire systeemarchitectuur. Natuurlijk, gezien het bij Google is ontwikkeld, werken technici het voortdurend bij en voegen meer functies toe. Verwacht niet dat TensorFlow snel stoom verliest.

Apache Kafka

Apache Kafka is een open source gedistribueerd streamingplatform dat in staat is dagelijks triljoenen evenementen in realtime af te handelen. Aanvankelijk opgevat als een berichtenwachtrij, is Kafka gebaseerd op een abstractie van een gedistribueerd vastleggingslogboek. Sinds de oprichting en open sourcing door LinkedIn in 2011 is Kafka snel geëvolueerd van berichtenwachtrij naar een volwaardig streamingplatform.

Kafka levert veel naammerken, waaronder Netflix, Airbnb, LinkedIn en anderen. Het is een populair raamwerk omdat het enorme hoeveelheden gegevens van meerdere interne platforms mogelijk maakt en er toegang toe heeft. Zie het als de ruggengraat van gegevensuitwisseling, die meerdere platforms en processen bedient die verschillende soorten gegevens gebruiken.

Jupyter-notitieboeken

De Jupyter Notebook is een ongelooflijk krachtig hulpmiddel voor het interactief ontwikkelen en presenteren van data science-projecten. Een notebook integreert code en de uitvoer ervan in een enkel document dat visualisaties, verhalende tekst, wiskundige vergelijkingen en andere rich media combineert. De intuïtieve workflow bevordert iteratieve en snelle ontwikkeling, waardoor notebooks een steeds populairdere keuze worden in het hart van de hedendaagse gegevenswetenschap, analyse en in toenemende mate wetenschap in het algemeen.

Het Jupyter-project profiteert van een grote gemeenschap van bijdragers, samenwerkingsverbanden met veel bedrijven (Rackspace, Microsoft, Continuum Analytics, Google, Github) en universiteiten (UC Berkeley, George Washington University, NYU.) Deze grote namen helpen ervoor te zorgen dat Jupyter constant groeit.

Bonus: SQL

We doen er alles aan om niet 's werelds meest gebruikte databasetaal te vermelden. SQL is de standaardtaal voor relationele databasebeheersystemen. SQL-instructies worden gebruikt om taken uit te voeren, zoals het bijwerken van gegevens in een database of het ophalen van gegevens uit een database.

Vanaf oktober 2018 zijn er meer dan 100.000 banen op zoek naar mensen die SQL kennen. Dit varieert van SQL-ontwikkelaars tot marketingprofessionals - analyse is belangrijk, ongeacht branche of rol. Omdat bedrijven steeds meer op zoek zijn naar datawetenschappers, zal dit aantal alleen maar exponentieel toenemen.

Gevolgtrekking

Je tijd is een beperkte bron, in dit bericht noemen we zes handige tools en technologieën waarvan we hopen dat ze nuttig zijn om te weten. Scikit-learn en panda's zijn geweldige python-bibliotheken om te bekijken voor machine learning. Het TensorFlow-raamwerk laat u kennismaken met graph computing en stelt u in staat om neurale netwerken te leren en te implementeren met behulp van deze bibliotheek. Apache Kafka zal nuttig zijn voor data engineering problemen. Met Jupyter-notebooks kunt u uw code testen en gebruiken tijdens het ontwikkelen van modellen voor machine learning. En het leren van SQL-code is een geweldige manier voor u om de gestructureerde gegevens die u gebruikt te integreren en te bevragen.

- - - - - - - - - - - - - - - - - - -

Lees meer data science-artikelen op OpenDataScience.com, inclusief tutorials en handleidingen van beginners tot gevorderden! Abonneer u hier op onze wekelijkse nieuwsbrief en ontvang elke donderdag het laatste nieuws.