10 conjuntos de datos públicos y dónde encontrarlos

Conjuntos de datos públicos son muy grandes conjuntos de datos que son de libre acceso para que usted pueda descargar o se conectan a través de la nube. Hay varios sitios web bien curada con la última información sobre los conjuntos de datos públicos y la forma de utilizarlos, incluyendo las siguientes:

  • Amazon Web Services: Actualmente hay 56 conjuntos de datos públicos que residen en Amazon Web Services disponibles para el público.

  • Ciencia Abierta nube de datos: La nube de datos Open Science es un consorcio patrocinado por la National Science Foundation Fundación Gordon y Betty Moore, Yahoo !, CISCO, y.

  • Bigdata-Puesta en marcha: Bigdata-Startup es un recurso en línea para todas las cosas grandes datos. Esta lista contiene una larga lista de organizaciones que hospedan bases de datos públicas.

Hay todo tipo de conjuntos de datos para ordenar a través, de proyectos del genoma de los blogs a los correos electrónicos de las corporaciones notorios. He aquí diez conjuntos de datos públicos y donde se puede ir para empezar:

  • 1000 Proyecto Genoma (200TB): El Proyecto 1000 Genomas es patrocinado por Amazon y el Centro Nacional de Información sobre Biotecnología. Este conjunto de datos contiene datos de más de 2.600 personas de 26 poblaciones diferentes de todo el mundo.

  • Completar Genomas de Datos Públicos (50 TB): Se trata de datos del genoma secuenciado de Complete Genomics, una compañía que ofrece servicios de secuenciación del genoma.

  • Observación de la Tierra-1 Misión (80.5TB): La NASA ha abierto la vista de pájaro de la Tierra. Se trata de datos recogidos por el Advanced Land Imager (ALI). Estos datos son utilizados para comprender mejor cómo los acontecimientos de la Tierra como volcanes, incendios forestales e inundaciones evolucionan con el tiempo y afectan a nuestro planeta.

  • Común Crawl Corpus (541TB): ¿Alguna vez has querido tener en sus manos los datos de rastreo para los miles de millones de páginas web con miles de millones de enlaces? Esta es su oportunidad. El rastreo Corpus Común proporciona un amplio conjunto de herramientas, ejemplos y proyectos se puede saltar a la actualidad.

  • Marvel Universe Gráfico Social (1 GB): Esta es una mirada de la diversión en la conectividad social del mundo Marvel de caracteres. Los fundadores afirman que el análisis de este mundo social es muy cerca de la nuestra.

  • Los correos electrónicos de Enron (210GB): Estos correos electrónicos - todos los 1,2 millones, con casi 500.000 archivos adjuntos - fueron puestos en libertad como parte de la investigación de la Comisión Reguladora de Energía Federal en la firma infame.

  • Millones de canciones de conjunto de datos de la muestra (500 GB): ¿Está buscando para conjuntos de datos de un millón de canciones populares? No busque más. The Million Canción conjunto de datos contiene algunas de las características de audio y metadatos de un millón de canciones populares.

  • Proyecto Gutenberg (742GB): Proyecto Gutenberg hace más de 46.000 libros disponibles para su análisis. Estos libros están ahora en el dominio público debido a que sus derechos de autor han expirado.

  • Conjuntos de datos del Censo de EE.UU. (1,8 TB): Cada diez años, los Estados Unidos deben hacer un censo. El principal propósito de esto es asegurar una adecuada asignación de escaños en el Congreso.

  • NOAA National Climatic Data Center (3,3 TB): No creo en el calentamiento global o cambio climático? Validarlo (o invalidarla) usted mismo. Este conjunto de datos contiene datos sobre más de 150 años de tiempo de muchas fuentes que van desde estaciones meteorológicas a las lecturas de aeropuertos a los datos de satélite.

    Usted puede ver las cosas como puntos de rocío, velocidad del viento y temperatura. Puede ser interesante buscar correlaciones entre este conjunto de datos y la Muestra millones de canciones. ¿Existe un vínculo entre los registros meteorológicos y de golpe? Suena como una gran pregunta de datos grande para que alguien responda. . . .