Dit zijn de beste gratis open gegevensbronnen die iedereen kan gebruiken

PC: Flickr

Wat is open data?

In eenvoudige bewoordingen betekent Open Data het soort gegevens dat voor iedereen toegankelijk is voor toegang, aanpassing, hergebruik en delen.

Open Data ontleent zijn basis aan verschillende 'open bewegingen' zoals open source, open hardware, open overheid, open science etc.

Overheden, onafhankelijke organisaties en agentschappen zijn naar voren gekomen om de sluizen van gegevens te openen om meer en meer open gegevens te creëren voor gratis en gemakkelijke toegang.

Waarom is open data belangrijk?

Open data is belangrijk omdat de wereld steeds meer data-driven is geworden. Maar als er beperkingen zijn op de toegang tot en het gebruik van gegevens, zal het idee van gegevensgestuurde bedrijfsvoering en governance niet worden verwezenlijkt.

Daarom heeft open data zijn eigen unieke plaats. Het kan een beter begrip van de mondiale problemen en universele problemen mogelijk maken. Het kan bedrijven een grote boost geven. Het kan een geweldige stimulans zijn voor machine learning. Het kan helpen bij het bestrijden van mondiale problemen zoals ziekte of criminaliteit of hongersnood. Open data kan burgers in staat stellen en dus de democratie versterken. Het kan de processen en systemen stroomlijnen die de samenleving en overheden hebben gebouwd. Het kan helpen de manier te veranderen waarop we de wereld begrijpen en ermee omgaan.

Dus hier is mijn lijst met 15 geweldige Open Data-bronnen:

1. Wereldbank Open Data

Als een opslagplaats van 's werelds meest uitgebreide gegevens over wat er gebeurt in verschillende landen over de hele wereld, is Wereldbank Open Data een essentiële bron van Open Data. Het biedt ook toegang tot andere datasets die ook in de datacatalogus worden genoemd.

World Bank Open Data is enorm omdat het 3000 datasets en 14000 indicatoren heeft die microdata, tijdreeksenstatistieken en geospatiale gegevens omvatten.

Toegang tot en het ontdekken van de gewenste gegevens is ook vrij eenvoudig. Het enige dat u hoeft te doen is de namen van de indicatoren, landen of onderwerpen op te geven en het opent de schatkamer van Open Data voor u. Hiermee kunt u ook gegevens in verschillende indelingen downloaden, zoals CSV, Excel en XML.

Als u een journalist of academicus bent, zult u in de ban raken van de vele tools die u ter beschikking staan. U krijgt toegang tot analyse- en visualisatietools die uw onderzoek kunnen ondersteunen. Het kan een dieper en beter begrip van mondiale problemen feliciteren.

U krijgt toegang tot de API die u kan helpen bij het maken van de datavisualisaties die u nodig hebt, live combinaties met andere gegevensbronnen en nog veel meer van dergelijke functies.

Het is daarom geen verrassing dat Wereldbank Open Data bovenaan elke lijst met Open Data-bronnen staat!

2. WHO (Wereldgezondheidsorganisatie) - Open gegevensrepository

De Open Data-repository van de WHO is hoe de WHO de gezondheidsspecifieke statistieken van zijn 194 lidstaten bijhoudt.

De repository houdt de gegevens systematisch georganiseerd. Het kan worden benaderd volgens verschillende behoeften. Of het nu gaat om sterfte of ziektelast, u kunt toegang krijgen tot gegevens die zijn geclassificeerd onder 100 of meer categorieën, zoals de Millennium Development Goals (kindervoeding, gezondheid van kinderen, gezondheid van moeders en reproducties, immunisatie, HIV / AIDS, tuberculose, malaria, verwaarloosde ziekten, water en sanitaire voorzieningen), niet-overdraagbare ziekten en risicofactoren, epidemische ziekten, gezondheidssystemen, milieuhygiëne, geweld en verwondingen, gelijkheid enz.

Voor uw specifieke behoeften kunt u de datasets doorlopen op basis van thema's, categorie, indicator en land.

Het goede is dat het mogelijk is om alle gegevens die u nodig hebt in Excel-formaat te downloaden. U kunt ook gegevens bewaken en analyseren door gebruik te maken van het dataportaal.

De API voor de gegevens- en statistische inhoud van de Wereldgezondheidsorganisatie is ook beschikbaar.

3. Google Public Data Explorer

Google Public Data Explorer is in 2010 gelanceerd en kan u helpen bij het verkennen van grote hoeveelheden datasets van algemeen belang. U kunt de gegevens visualiseren en communiceren voor uw respectieve gebruik.

Het maakt de gegevens van verschillende instanties en bronnen beschikbaar. U kunt bijvoorbeeld toegang krijgen tot gegevens van de Wereldbank, het Amerikaanse Bureau of Labor Statistics en het Amerikaanse Bureau, OESO, IMF en anderen.

Verschillende belanghebbenden hebben toegang tot deze gegevens voor verschillende doeleinden. Of u nu een student of een journalist bent, of u een beleidsmaker of een academicus bent, u kunt deze tool gebruiken om visualisaties van openbare gegevens te maken.

U kunt met behulp van Data Explorer verschillende manieren gebruiken om de gegevens weer te geven, zoals lijngrafieken, staafdiagrammen, kaarten en bellengrafieken.

Het beste deel is dat je deze visualisaties behoorlijk dynamisch zou vinden. Het betekent dat je ze na verloop van tijd zult zien veranderen. U kunt onderwerpen wijzigen, zich op verschillende items concentreren en de schaal aanpassen.

Het is ook gemakkelijk te delen. Zodra u de grafiek gereed hebt, kunt u deze in uw website of blog insluiten of eenvoudig een link met uw vrienden delen.

4. Register van open gegevens op AWS (RODA)

Dit is een repository met openbare datasets. Het zijn gegevens die beschikbaar zijn via AWS-bronnen.

Wat RODA betreft, kunt u de gegevens die openbaar beschikbaar zijn, ontdekken en delen.

In RODA kunt u trefwoorden en tags gebruiken voor veelvoorkomende typen gegevens, zoals genomic, satellietbeelden en transport, om te zoeken naar de gegevens waarnaar u op zoek bent. Dit alles is mogelijk op een eenvoudige webinterface.

Voor elke dataset ontdekt u de detailpagina, gebruiksvoorbeelden, licentie-informatie en tutorials of applicaties die deze gegevens gebruiken.

Door gebruik te maken van een breed scala aan reken- en data-analyseproducten, kunt u de open data analyseren en elke gewenste service bouwen.

Hoewel de gegevens waartoe u toegang heeft, beschikbaar zijn via AWS-bronnen, moet u er rekening mee houden dat deze niet door AWS worden verstrekt. Deze gegevens zijn van verschillende instanties, overheidsorganisaties, onderzoekers, bedrijven en particulieren.

5. Open data-portaal van de Europese Unie

U hebt toegang tot alle open data die EU-instellingen, agentschappen en andere organisaties op één platform publiceren, namelijk het Open Data Portal van de Europese Unie.

Het EU Open Data-portaal bevat essentiële open gegevens met betrekking tot EU-beleidsdomeinen. Deze beleidsdomeinen omvatten economie, werkgelegenheid, wetenschap, milieu en onderwijs.

Ongeveer 70 EU-instellingen, organisaties of afdelingen zoals Eurostat, het Europees Milieuagentschap, het Gemeenschappelijk Centrum voor onderzoek en andere directoraten-generaal en EU-agentschappen van de Europese Commissie hebben hun datasets openbaar gemaakt en toegang verleend. Deze datasets zijn tot op heden het nummer van 11700 overschreden.

De portal biedt gemakkelijke toegang. U kunt de gegevens gemakkelijk zoeken, verkennen, koppelen, downloaden en hergebruiken via een catalogus met gemeenschappelijke metagegevens. U kunt dit doen voor uw specifieke doeleinden. Het kan commerciële of niet-commerciële doeleinden zijn.

U kunt de metadatacatalogus doorzoeken via een interactieve zoekmachine (tabblad Gegevens) en SPARQL-zoekopdrachten (tabblad Gekoppelde gegevens).

Door gebruik te maken van deze catalogus kunt u toegang krijgen tot de gegevens die zijn opgeslagen op de verschillende websites van de EU-instellingen, agentschappen en organisaties.

6. FiveThirtyEight

Het is een geweldige site voor datagestuurde journalistiek en verhalen vertellen.

Het biedt verschillende gegevensbronnen voor verschillende sectoren, zoals politiek, sport, wetenschap, economie, enz. U kunt de gegevens ook downloaden.

Wanneer u de gegevens opent, krijgt u een korte uitleg over elke gegevensset met betrekking tot de bron. Je leert ook waar het voor staat en hoe het te gebruiken.

Om deze gegevens gebruiksvriendelijk te maken, biedt het datasets in zo eenvoudig, niet-eigen formaten zoals CSV-bestanden mogelijk. Onnodig te zeggen dat deze formaten gemakkelijk kunnen worden geopend en verwerkt door zowel mensen als machines.

Met behulp van deze datasets kunt u verhalen en visualisaties maken volgens uw eigen vereisten en voorkeuren.

7. U.S. Census Bureau

U.S. Census Bureau is het grootste statistische bureau van de federale overheid. Het slaat betrouwbare feiten en gegevens op over mensen, plaatsen en de economie van Amerika.

Het Census Bureau beschouwt zijn nobele missie om zijn diensten uit te breiden als de meest betrouwbare aanbieder van kwaliteitsgegevens.

Of het nu een federale, provinciale, lokale of tribale overheid is, ze maken allemaal gebruik van volkstellingen voor verschillende doeleinden. Deze overheden gebruiken deze gegevens om de locatie van nieuwe woningen en openbare voorzieningen te bepalen. Ze maken er ook gebruik van bij het onderzoeken van de demografische kenmerken van gemeenschappen, staten en de VS.

Deze gegevens worden ook gebruikt bij de planning van transportsystemen en wegen. Als het gaat om het bepalen van quota en het creëren van politie- en brandweerterreinen, komen deze gegevens van pas. Wanneer overheden gelokaliseerde gebieden van verkiezingen, scholen, nutsbedrijven enz. Creëren, maken ze gebruik van deze gegevens. Het is een gewoonte om eens per tien jaar populatie-informatie samen te stellen en deze gegevens zijn behoorlijk nuttig om hetzelfde te bereiken.

Er zijn verschillende tools zoals American Fact Finder, Census Data Explorer en Quick Facts die handig zijn als u gegevens wilt zoeken, aanpassen en visualiseren.

Quick Facts alleen bevat bijvoorbeeld statistieken voor alle staten, provincies, steden en zelfs steden met een bevolking van 5000 of meer.

Evenzo kan American Fact Finder u helpen populaire feiten zoals bevolking, inkomen enz. Te ontdekken. Het biedt informatie die vaak wordt gevraagd.

Het goede is dat u kunt zoeken, communiceren met de gegevens, kennis kunt maken met populaire statistieken en de bijbehorende grafieken kunt bekijken via Census Data Explorer. Bovendien kunt u de visuele tool ook gebruiken om gegevens op een interactieve kaartervaring aan te passen.

8. Data.gov

Data.gov is de schatkamer van de open data van de Amerikaanse overheid. Pas onlangs werd besloten om alle overheidsgegevens gratis beschikbaar te stellen.

Toen het werd gelanceerd, waren er slechts 47. Er zijn nu 180.000 datasets.

Waarom Data.gov een geweldige bron is, is omdat u gegevens, hulpmiddelen en bronnen kunt vinden die u voor verschillende doeleinden kunt inzetten. U kunt uw onderzoek uitvoeren, uw web- en mobiele applicaties ontwikkelen en zelfs datavisualisaties ontwerpen.

Het enige wat u hoeft te doen is trefwoorden in het zoekvak in te voeren en door typen, tags, formaten, groepen, organisatietypen, organisaties en categorieën te bladeren. Dit zal gemakkelijke toegang tot gegevens of gegevenssets vergemakkelijken die u nodig hebt.

Data.gov volgt het Project Open Data Schema - een set vereiste velden (Titel, Beschrijving, Tags, Laatste update, Publisher, Contactnaam, etc.) voor elke dataset die op Data.gov wordt weergegeven.

9. DBpedia

Zoals u weet, is Wikipedia een geweldige informatiebron. DBpedia streeft ernaar gestructureerde inhoud te krijgen van de waardevolle informatie die Wikipedia heeft gemaakt.

Met DBpedia kunt u semantisch relaties en eigenschappen van Wikipedia-bronnen zoeken en verkennen. Dit omvat ook koppelingen naar andere gerelateerde gegevenssets.

Er zijn ongeveer 4,58 miljoen entiteiten in de DBpedia-gegevensset. 4,22 miljoen zijn geclassificeerd in ontologie, waaronder 1.445.000 personen, 735.000 plaatsen, 123.000 muziekalbums, 87.000 films, 19.000 videogames, 241.000 organisaties, 251.000 soorten en 6.000 ziekten.

Er zijn labels en samenvattingen voor deze entiteiten in ongeveer 125 talen. Er zijn 25,2 miljoen links naar afbeeldingen. Er zijn 29,8 miljoen links naar externe webpagina's.

Het enige wat u hoeft te doen om DBpedia te gebruiken, is SPARQL-query's schrijven op het eindpunt of door hun dumps te downloaden.

DBpedia heeft geprofiteerd van verschillende ondernemingen, zoals Apple (via Siri), Google (via Freebase en Google Knowledge Graph) en IBM (via Watson), en met name hun respectieve prestigieuze projecten in verband met kunstmatige intelligentie.

10. freeCodeCamp Open Data

Het is een open source community. Waarom het belangrijk is, is omdat het u in staat stelt om te coderen, pro-bonoprojecten te bouwen na non-profitorganisaties en een baan als ontwikkelaar te bemachtigen.

Om dit mogelijk te maken, stelt de community freeCodeCamp.org elke maand enorme hoeveelheden gegevens beschikbaar. Ze hebben er open data van gemaakt.

Je zult een verscheidenheid aan dingen vinden in deze repository. U kunt datasets, analyse van dezelfde en zelfs demo's van projecten vinden op basis van de freeCodeCamp-gegevens. U kunt ook koppelingen vinden naar externe projecten met de freeCodeCamp-gegevens.

Het kan u helpen met een verscheidenheid aan projecten en taken die u mogelijk in gedachten heeft. Of het nu gaat om webanalyses, sociale mediaanalyses, sociale netwerkanalyses, onderwijsanalyses, gegevensvisualisatie, gegevensgestuurde webontwikkeling of bots, de gegevens die door deze community worden aangeboden, kunnen uiterst nuttig en effectief zijn.

11. Yelp Open Datasets

De dataset van Yelp is in feite een subset van niets anders dan onze eigen bedrijven, beoordelingen en gebruikersgegevens voor gebruik in persoonlijke, educatieve en academische bezigheden.

Er zijn 5.996.996 beoordelingen, 188.593 bedrijven, 280.991 foto's en 10 grootstedelijke gebieden opgenomen in Yelp Open Datasets.

U kunt ze voor verschillende doeleinden gebruiken. Omdat ze beschikbaar zijn als JSON-bestanden, kunt u ze gebruiken om studenten over databases te leren. U kunt ze gebruiken om NLP te leren of voor voorbeeldproductiegegevens terwijl u begrijpt hoe u mobiele apps ontwerpt.

In deze dataset vindt u elk bestand dat bestaat uit een enkel objecttype, één JSON-object per regel.

12. UNICEF gegevensset

Omdat UNICEF zich bezighoudt met een breed scala van kritieke kwesties, heeft het relevante gegevens verzameld over onderwijs, kinderarbeid, kinderhandicap, kindersterfte, moedersterfte, water en sanitaire voorzieningen, laag geboortegewicht, prenatale zorg, longontsteking, malaria, jodiumtekort stoornis, genitale verminking / snijden bij vrouwen en adolescenten.

De open datasets van UNICEF die zijn gepubliceerd in het IATI-register: http://www.iatiregistry.org/publisher/unicef ​​zijn rechtstreeks geëxtraheerd uit het besturingssysteem van UNICEF (VISION) en andere datasystemen en weerspiegelen de input van individuele UNICEF-kantoren.

Het goede is dat er een regelmatige update is als het gaat om deze datasets. Elke maand worden de gegevens bijgewerkt om ze uitgebreider, betrouwbaarder en nauwkeuriger te maken.

U hebt vrij en gemakkelijk toegang tot deze gegevens. Om dit te doen, kunt u deze gegevens in CSV-formaat downloaden. U kunt ook een voorbeeld van voorbeeldgegevens bekijken voordat u deze downloadt.

Hoewel iedereen de datasets van UNICEF kan verkennen en visualiseren, zijn er drie belangrijke uitgevers:

UNICEF'S HULP TRANSPARANTIEPORTAL: u kunt veel gemakkelijker toegang krijgen tot de datasets als u deze portal gebruikt. Het bevat ook details voor elk land waar UNICEF werkt.

Publisher d-portal: het bevindt zich momenteel in BETA. Met deze portal kunt u IATI-gegevens verkennen.

U kunt de informatie zoeken met betrekking tot ontwikkelingsactiviteiten, budgetten enz. U kunt deze informatie landelijk verkennen.

Gegevensplatform van de uitgever: op dit platform hebt u eenvoudig toegang tot statistieken, grafieken en statistieken over gegevens waartoe toegang is verkregen via het IATI-register. Als u op de koppen klikt, kunt u ook veel van de tabellen sorteren die u op het platform ziet. U zult ook veel van de datasets op de platforms vinden in machinaal leesbaar JSON-formaat.

13. Kaggle

Kaggle is geweldig omdat het het gebruik van verschillende publicatieformaten voor datasets bevordert. Het grootste deel is echter dat het sterk aanbeveelt dat de datasetuitgevers hun gegevens delen in een toegankelijk, niet-eigen formaat.

Het platform ondersteunt open en toegankelijke dataformaten. Het is niet alleen belangrijk voor toegang, maar ook voor alles wat u met deze gegevens wilt doen. Daarom definieert Kaggle Dataset duidelijk de bestandsindelingen die worden aanbevolen bij het delen van gegevens.

Het unieke van Kaggle-gegevenssets is dat het niet alleen een gegevensrepository is. Elke dataset staat voor een community waarmee u gegevens kunt bespreken, openbare codes en technieken kunt ontdekken en uw eigen projecten in Kernels kunt conceptualiseren.

CSV, JSON, SQLite, Archive, Big Query enz. Zijn bestandstypen die Kaggle ondersteunt. U kunt verschillende bronnen vinden om aan uw open data-project te beginnen.

Het beste deel is dat Kaggle je toestaat om datasets privé of publiek te publiceren en te delen.

14. LODUM

Het is het Open Data-initiatief van de Universiteit van Münster. Met dit initiatief wordt het voor iedereen mogelijk gemaakt om toegang te krijgen tot alle openbare informatie over de universiteit in machineleesbare formaten. U kunt het gemakkelijk openen en hergebruiken volgens uw behoeften.

Open gegevens over wetenschappelijke artefacten en gecodeerd als gekoppelde gegevens worden beschikbaar gesteld onder dit project.

Met behulp van Linked Data is het mogelijk om gegevens, ontologieën en verschillende metadatastandaarden te delen en te gebruiken. Het is in feite de bedoeling dat dit de geaccepteerde standaard zal zijn voor het leveren van metadata en de data zelf op het web.

Het LODUM-team heeft LinkedUniversities.org en LinkedScience.org mede geïnitieerd.

U kunt de SPARQL-editor of het SPARQL-pakket van R gebruiken om gegevens te analyseren.

SPARQL-pakket maakt het mogelijk om via HTTP verbinding te maken met een SPARQL-eindpunt, een SELECT-query of een updatevraag te stellen (LOAD, INSERT, DELETE).

15. UCI Machine Learning Repository

Het dient als een uitgebreide repository van databases, domeintheorieën en gegevensgeneratoren die door de machine learning-gemeenschap worden gebruikt voor de empirische analyse van machine learning-algoritmen.

In deze repository bevinden zich momenteel 463 datasets als service voor de machine learning-gemeenschap.

Irvine is het Center for Machine Learning en Intelligent Systems aan de Universiteit van Californië en host en onderhoudt het. David Aha had het oorspronkelijk gemaakt als een afgestudeerde student aan UC Irvine.

Sindsdien gebruiken studenten, docenten en onderzoekers over de hele wereld het als een betrouwbare bron van datasets voor machine learning.

Hoe het werkt, is dat elke gegevensset een afzonderlijke webpagina heeft met alle bekende details, inclusief relevante publicaties die deze onderzoeken. U kunt deze datasets downloaden als ASCII-bestanden, vaak het nuttige CSV-formaat.

De details van datasets worden samengevat door aspecten zoals attribuuttypen, aantal instanties, aantal attributen en gepubliceerd jaar dat kan worden gesorteerd en doorzocht.

Open dataportals en zoekmachines:

Hoewel er elk jaar veel datasets worden gepubliceerd door tal van bureaus, worden zeer weinig datasets herkend en vastgesteld.

De reden waarom zeer weinig van dergelijke datasets als nuttige bron blijven bestaan, is dat het een uitdaging is om de gegevens te ontwikkelen, te beheren en te verstrekken op een manier die mensen en organisaties nuttig en gemakkelijk te gebruiken vinden.

Hieronder vindt u echter een lijst met enkele andere belangrijke open dataportals en platforms waarmee gebruikers vrij gemakkelijk toegang hebben tot open data, de impact bestuderen en waardevolle inzichten verzamelen.

  1. Google dataset zoeken
  2. Dataverse
  3. Open Data Kit
  4. CKAN
  5. Open Gegevensmonitor
  6. Plenar.io
  7. Open Data Impact Map

Gevolgtrekking

Open data is aan de orde van de dag. De wereld is geleidelijk aan op weg naar open systemen en open data is daar goed op afgestemd.

Het bedrijf en de organisaties die gebruikmaken van open data zullen een concurrentievoordeel behalen en de toekomst kunnen domineren.