Datasets para projetos de Data Science

Um dataset ou um conjunto de dados em Data Science (Ciência dos Dados) é uma coleção ou um conjunto de dados tabulados (linha x coluna)  em tradução livre, disponibilizado em formatos tabulares diversos como XLS, CSV, TXT, JSON, XML (entre outros formatos), em uma determinada quantidade de registros e relacionado a um assunto específico.

Para dar um up no seu projeto ou estudos de Data Science é necessário encontrar um conjunto de datasets sobre assuntos interessantes para seus objetivos e quem sabe gratuitos!

A seguir alguns datasets gratuitos disponíveis na web para você usar e abusar em suas atividades, trabalhos ou estudos em Data Science:

dadosabertos
Portal Brasileiro de Dados Abertos
Site: http://www.dados.gov.br/
Possui uma infinidade de informações do governo brasileiro, uma ferramenta disponibilizada pelo governo para que todos possam encontrar e utilizar os dados e as informações públicas, disponibilizando dados relativos às mais variadas temáticas da administração pública, como dados do IBGE, INSS, Banco Central, Senso, Bolsa Família, etc. Os dados estão em diversos formatos como CSV, JSON, EXCEL e outros.
Datasets disponíveis: http://www.dados.gov.br/dataset/

brasil.io
Brasil.io
Site: https://brasil.io/
Slogan “O Brasil em dados libertos”. Repositório de dados públicos disponibilizados em formato acessível, que visa tornar acessíveis os dados brasileiros de interesse público tendo como valores principais a transparência e colaboração.
Datasets disponíveis: https://brasil.io/datasets/

datagov
Site: https://www.data.gov/
A casa dos dados abertos do governo dos EUA. Nele você encontrará dados, ferramentas e recursos sobre diversos assuntos como agricultura, economia e comércio exterior para conduzir pesquisas, desenvolver aplicativos móveis e da Web, projetar visualizações de dados e entre outros.
Datasets disponíveis: https://catalog.data.gov/dataset/

FiveThirtyEight
Site: https://fivethirtyeight.com/
Site de notícias e esportes. Realiza projetos de Data Science incríveis que podem ser vistos em https://projects.fivethirtyeight.com/.
Possui datasets interessantes como dados da FIFA, Avengers, dados de estudos sobre nutrição, sobre terrorismo ao longo da história, NFL, NBA, etc.
Datasets disponíveis: https://github.com/fivethirtyeight/data

Reddit_logo
Site: https://www.reddit.com/
O Reddit é uma plataforma de notícias sociais que permite aos usuários discutir e votar no conteúdo web que outros usuários enviam, gerando um hanking de votação positiva ou negativamente sobre os links divulgados, destacando os principais na sua página inicial. Possui informações do Uber, Corona Vírus, projetos de Data Science, Fake News detectadas, imóveis comerciais, entre outras infinidades de temas de datasets.
Datasets disponíveis: https://www.reddit.com/r/datasets/

BuzzFeed
Site: https://www.buzzfeed.com/
Site de notícias famoso por compartilhar todo tipo de notícia. Possuem uma vasta quantidade de datasets úteis para projetos de Data Science e estatística.
Datasets disponíveis: https://github.com/BuzzFeedNews/

Wikipedia
Wikipedia
Site: https://meta.wikimedia.org/
Famoso site de conteúdo na web possui também datasets de todas as páginas da biblioteca livre de todos os seus artigos.
Datasets disponíveis: https://meta.wikimedia.org/wiki/Mirroring_Wikimedia_project_XML_dumps e https://dumps.wikimedia.org/

worldbank

Banco Mundial
Site: https://www.worldbank.org/
O Banco Mundial é uma organização global de desenvolvimento que oferece empréstimos e consultoria para países em desenvolvimento. O Banco Mundial financia regularmente programas nos países em desenvolvimento e, em seguida, reúne dados para monitorar o sucesso desses programas.
Datasets disponíveis: https://datacatalog.worldbank.org/search/type/dataset/

Paramos por aqui! 🙂  Existem inúmeras opções de datasets disponíveis na internet, basta você pesquisar. Aqui tivemos um ponta pé inicial. Recomendo também a leitura do artigo “15 Repositórios no Github para Cientistas de Dados” do site Ciência de Dados no link http://www.cienciaedados.com/15-repositorios-no-github-para-cientistas-de-dados/.

Até a próxima…

Fontes
https://www.dataquest.io/blog/free-datasets-for-projects/
https://towardsdatascience.com/top-10-great-sites-with-free-data-sets-581ac8f6334/
https://paulovasconcellos.com.br/os-7-melhores-sites-para-encontrar-datasets-para-projetos-de-data-science-8a53c3b48329/
https://medium.com/@leonardopiechacaldeira/os-9-melhores-sites-para-encontrar-datasets-para-projetos-de-data-science-b58abbd2b1b8/

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s