Gratis open datasets voor Machine Learning & Data Science | Op weg naar AI

De beste openbare datasets voor machine learning en data science

Wat zijn de beste datasets voor machine learning? Na uren na uren schrapen van het web, hebben we een groot spiekbriefje gemaakt voor hoogwaardige en diverse datasets van machine learning.

Auteurs:

Stacy Stanford, Machine Learning Memoirs Inc.

Roberto Iriondo, afdeling Machine Learning, Carnegie Mellon University.

Gepubliceerd:

2 oktober 2018

LAATST BIJGEWERKT:

15 mei 2019

Een paar dingen om in gedachten te houden bij het zoeken naar datasets van hoge kwaliteit:

1.- Een dataset van hoge kwaliteit moet niet rommelig zijn, omdat u niet veel tijd wilt besteden aan het opschonen van gegevens.

2.- Een hoogwaardige gegevensset mag niet te veel rijen of kolommen bevatten, dus het is gemakkelijk om mee te werken.

3.- Hoe schoner de gegevens, hoe beter - het opschonen van een grote gegevensset kan ongelooflijk tijdrovend zijn.

4.- Je einddoel moet een vraag / beslissing hebben om te beantwoorden, die op zijn beurt kan worden beantwoord met gegevens.

Datasetzoekers

Google Dataset Search: vergelijkbaar met hoe Google Scholar werkt, stelt Dataset Search u in staat om datasets te vinden waar ze worden gehost, of het nu een site van een uitgever, een digitale bibliotheek of een persoonlijke webpagina van een auteur is.

Kaggle: een data science-site die een verscheidenheid van extern bijgedragen aan interessante datasets bevat. U kunt allerlei niche-gegevenssets in de hoofdlijst vinden, van ramen-beoordelingen tot basketbalgegevens tot zelfs huisdierlicenties voor Seattle.

UCI Machine Learning Repository: een van de oudste bronnen van datasets op het web, en een geweldige eerste stop bij het zoeken naar interessante datasets. Hoewel de gegevenssets door gebruikers zijn bijgedragen en dus verschillende niveaus van netheid hebben, is de overgrote meerderheid schoon. U kunt gegevens rechtstreeks uit de UCI Machine Learning-repository downloaden, zonder registratie.

VisualData: ontdek gegevenssets voor computervisies per categorie, hiermee kunnen zoekopdrachten worden doorzocht.

Datasets zoeken | CMU-bibliotheken: ontdek hoogwaardige datasets dankzij de verzameling van Huajin Wang, CMU.

Algemene gegevenssets

Datasets van de overheid

Data.gov: Deze site maakt het mogelijk om gegevens van meerdere Amerikaanse overheidsinstanties te downloaden. Gegevens kunnen variëren van overheidsbudgetten tot schoolprestaties. Maar wees gewaarschuwd: veel gegevens vereisen aanvullend onderzoek.

Voedselomgeving Atlas: bevat gegevens over hoe lokale voedselkeuzes het dieet in de VS beïnvloeden.

Schoolsysteemfinanciën: een overzicht van de financiën van schoolsystemen in de VS.

Gegevens over chronische ziekten: gegevens over indicatoren voor chronische ziekten in gebieden in de VS.

Het Amerikaanse National Center for Education Statistics: gegevens over onderwijsinstellingen en onderwijsdemografie uit de VS en de rest van de wereld.

The UK Data Service: de grootste verzameling sociale, economische en bevolkingsgegevens van het VK.

Data USA: een uitgebreide visualisatie van Amerikaanse openbare gegevens.

Datasets van woningen

Boston Housing Dataset: Bevat informatie verzameld door de U.S Census Service betreffende huisvesting in het gebied van Boston Mass. Het werd verkregen uit het StatLib-archief en is in de literatuur veelvuldig gebruikt om algoritmen te benchmarken.

Geografische gegevenssets

Google-Landmarks-v2: een verbeterde dataset voor herkenning en ophalen van herkenningspunten. Deze dataset bevat 5M + afbeeldingen van 200k + oriëntatiepunten van over de hele wereld, afkomstig en geannoteerd door de Wiki Commons-gemeenschap.

Gegevenssets voor financiën en economie

Quandl: een goede bron voor economische en financiële gegevens - handig voor het bouwen van modellen om economische indicatoren of aandelenkoersen te voorspellen.

World Bank Open Data: datasets over bevolkingsdemografie, een groot aantal economische en ontwikkelingsindicatoren van over de hele wereld.

IMF-gegevens: het Internationaal Monetair Fonds publiceert gegevens over internationale financiën, schuldtarieven, valutareserves, grondstoffenprijzen en investeringen.

Financial Times-marktgegevens: up-to-date informatie over financiële markten van over de hele wereld, inclusief aandelenprijsindexen, grondstoffen en vreemde valuta.

Google Trends: onderzoek en analyseer gegevens over internetzoekactiviteiten en trending nieuwsverhalen over de hele wereld.

American Economic Association (AEA): een goede bron om macro-economische gegevens in de VS te vinden.

Gegevenssets machine learning:

Datasets voor beeldvorming

xView: xView is een van de grootste publiekelijk beschikbare datasets van overheadbeelden. Het bevat afbeeldingen van complexe scènes over de hele wereld, geannoteerd met behulp van selectiekaders.

Labelme: een grote gegevensset met geannoteerde afbeeldingen.

ImageNet: de feitelijke gegevensset voor nieuwe algoritmen, georganiseerd volgens de WordNet-hiërarchie, waarin honderden en duizenden afbeeldingen elk knooppunt van de hiërarchie weergeven.

LSUN: Scènebegrip met veel bijkomende taken (schatting van de kamerindeling, voorspelling van de saliëntie, etc.)

MS COCO: algemeen begrip van afbeeldingen en onderschriften.

COIL100: 100 verschillende objecten afgebeeld onder elke hoek in een 360-rotatie.

Visual Genome: Zeer gedetailleerde visuele kennisbank met ondertiteling van ~ 100K afbeeldingen.

Google's Open afbeeldingen: een verzameling van 9 miljoen URL's naar afbeeldingen "die zijn voorzien van labels met meer dan 6000 categorieën" onder Creative Commons.

Gelabelde gezichten in het wild: 13.000 gelabelde afbeeldingen van menselijke gezichten, voor gebruik bij het ontwikkelen van toepassingen met gezichtsherkenning.

Stanford Dogs-gegevensset: bevat 20.580 afbeeldingen en 120 verschillende hondenrascategorieën.

Scèneherkenning binnenshuis: een zeer specifieke gegevensset en zeer nuttig, omdat de meeste modellen voor scèneherkenning beter 'buiten' zijn. Bevat 67 Indoor-categorieën en 15620 afbeeldingen.

Gegevenssets voor sentimentanalyse

Multidomain sentiment analyse dataset: een iets oudere dataset met productrecensies van Amazon.

IMDB-beoordelingen: een oudere, relatief kleine gegevensset voor classificatie van binair sentiment bevat 25.000 filmrecensies.

Stanford Sentiment Treebank: Standaard sentiment dataset met sentiment annotaties.

Sentiment140: een populaire dataset, die 160.000 tweets gebruikt met vooraf verwijderde emoticons.

Twitter US Airline Sentiment: Twitter-gegevens over Amerikaanse luchtvaartmaatschappijen vanaf februari 2015, geclassificeerd als positieve, negatieve en neutrale tweets

Gegevenssets voor verwerking van natuurlijke talen

HotspotQA Dataset: Vraag-antwoord dataset met natuurlijke, multi-hop vragen, met sterk toezicht voor ondersteunende feiten om meer verklaarbare vraag-antwoordsystemen mogelijk te maken.

Enron-gegevensset: e-mailgegevens van het senior management van Enron, georganiseerd in mappen.

Amazon Reviews: bevat ongeveer 35 miljoen beoordelingen van Amazon over 18 jaar. Gegevens omvatten product- en gebruikersinformatie, beoordelingen en beoordeling van platte tekst.

Google Books Ngrams: een verzameling woorden uit Google books.

Blogger Corpus: een verzameling van 681.288-blogberichten verzameld van blogger.com. Elke blog bevat minimaal 200 exemplaren van veelgebruikte Engelse woorden.

Wikipedia Links data: de volledige tekst van Wikipedia. De dataset bevat bijna 1,9 miljard woorden uit meer dan 4 miljoen artikelen. U kunt zoeken op woord, zin of deel van een alinea zelf.

Gutenberg eBooks-lijst: een geannoteerde lijst met e-boeken van Project Gutenberg.

Hansards tekstfragmenten van het Canadese parlement: 1,3 miljoen paar teksten uit de archieven van het 36e Canadese parlement.

Jeopardy: archief van meer dan 200.000 vragen uit de quizshow Jeopardy.

Rotten Tomatoes Reviews: archief van meer dan 480.000 criticusrecensies (vers of verrot).

SMS Spam Collection in het Engels: een dataset die bestaat uit 5.574 Engelse sms-spamberichten

Yelp Reviews: een open dataset uitgegeven door Yelp, bevat meer dan 5 miljoen reviews.

UCI's Spambase: een grote spam e-mail dataset, handig voor spamfiltering.

Gegevensverzamelingen voor zelfrijdend (autonoom rijden)

Berkeley DeepDrive BDD100k: momenteel de grootste dataset voor zelfrijdende AI. Bevat meer dan 100.000 video's van meer dan 1.100 uur rijervaring op verschillende tijdstippen van de dag en weersomstandigheden. De geannoteerde afbeeldingen komen uit de gebieden New York en San Francisco.

Baidu Apolloscapes: Grote dataset die 26 verschillende semantische items definieert, zoals auto's, fietsen, voetgangers, gebouwen, straatlantaarns, enz.

Comma.ai: Meer dan 7 uur rijden op de snelweg. Details zijn onder meer snelheid van de auto, versnelling, stuurhoek en GPS-coördinaten.

De robotauto van Oxford: meer dan 100 herhalingen van dezelfde route door Oxford, VK, vastgelegd over een periode van een jaar. De dataset legt verschillende combinaties van weer, verkeer en voetgangers vast, samen met veranderingen op lange termijn zoals constructie en wegwerkzaamheden.

Cityscape Dataset: een grote dataset die stedelijke straatscènes opneemt in 50 verschillende steden.

CSSAD-gegevensset: deze gegevensset is nuttig voor de perceptie en navigatie van autonome voertuigen. De dataset scheeft zwaar af op wegen in de ontwikkelde wereld.

KUL België Verkeersbordendataset: Meer dan 10.000 verkeersbordaantekeningen van duizenden fysiek verschillende verkeersborden in de Vlaamse regio in België.

MIT AGE Lab: een voorbeeld van de meer dan 1000 uur aan datasets met meerdere sensoren die zijn verzameld op AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: deze dataset omvat verkeersborden, voertuigdetectie, verkeerslichten en trajectpatronen.

Bosch kleine verkeerslichtgegevensset: gegevensset voor kleine verkeerslichten voor diepgaand leren.

LaRa Traffic Light Recognition: een andere dataset voor verkeerslichten. Dit wordt genomen in Parijs.

WPI-gegevenssets: gegevenssets voor verkeerslichten, voetgangers- en rijstrookdetectie.

Klinische gegevenssets

MIMIC-III: Openlijk beschikbare dataset ontwikkeld door het MIT Lab voor computationele fysiologie, bestaande uit niet-geïdentificeerde gezondheidsgegevens in verband met ~ 40.000 patiënten met kritieke zorg. Het omvat demografie, vitale functies, laboratoriumtests, medicijnen en meer.

Opmerking:

Als u op de hoogte bent van andere openbare datasets van hoge kwaliteit die u mensen aanbeveelt voor onderzoek en toepassing van machine learning, diep leren, data science, enz. Aarzel niet om ze te suggereren samen met de redenen waarom ze zouden moeten worden opgenomen in de reacties hieronder of door Stacy rechtstreeks te e-mailen op sstanford@mlmemoirs.xyz.

Als de reden sterk is, zullen we ze analyseren en opnemen in deze lijst. Laat ons ook weten wat uw ervaring is met het gebruik van een van deze datasets in het opmerkingengedeelte.

Gelukkig machine leren!

Met dank aan:

De auteurs willen de leden van de AI Community bedanken voor de enorme steun en de opbouwende kritiek bij de voorbereiding van dit artikel.

DISCLAIMER: De standpunten in dit artikel zijn die van de auteur (s) en vertegenwoordigen niet de standpunten van Carnegie Mellon University, Machine Learning Memoirs Inc. noch andere bedrijven (direct of indirect) verbonden aan de auteur (s). Deze geschriften zijn niet bedoeld als eindproducten, maar eerder als een afspiegeling van het huidige denken, en zijn tegelijk een katalysator voor discussie en verbetering.

Aanbevolen verhalen:

bronnen:

[1] https://cloud.google.com/public-datasets/

[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] Institutioneel onderzoek en analyse Gemeenschappelijke gegevenssets | https://www.cmu.edu/ira/CDS/index.html

[11] Datasets en projectsuggesties | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[13] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets

[14] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/

[15] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/

[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

[17] Gegevenssets verkennen | Data Science bij Berkeley | https://datascience.berkeley.edu/open-data-sets/

[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

Citaat:

Citeer dit werk voor toeschrijving in academische contexten als

Stanford, et al., "The Best Public Datasets for Machine Learning and Data Science", Towards AI, 2018

BibTex-citaat:

@misc {stanford_2018,
  title = {De beste openbare gegevenssets voor machine learning en data science},
  url = {} https://towardsai.net/datasets,
  er rekening mee = {https://towardsai.net/datasets},
  journal = {} Medium,
  publisher = {Towards AI},
  author = {Stanford, Stacy and Iriondo, Roberto},
  year = {2018},
  maand = {oktober}
}