Skip to content
chris-redfield edited this page Mar 26, 2013 · 77 revisions

Existe uma variedade de tecnologias que resolvem diferentes problemas como criar, publicar e utilizar dados abertos. O objetivo deste projeto é acumular informações sobre essas tecnologias, suas vantagens e desvantagens, para possibilitar àqueles que estão realizando essas tarefas que possam escolher a tecnologia apropriada, evitar reinvenção de ferramentas que já existem, e identificar ferramentas que desejam colaborar.

Esta página é uma lista de ferramentas para dados abertos. A meta atual é fazer uma cobertura em largura ao invés de profundidade. Cada ferramenta deve ser linkada ao seu sítio, ter uma breve descrição, um link para a organização que a desenvolveu, e uma lista de etiquetas que possa ser extraída depois.

Assim como a Wikipedia, se alguma coisa não for citada, adicione! Assim todos saberemos ;-)

Ferramentas de Transformação/Limpeza

Ferramentas de Extração de Dados na Web

  • Easy Open Data: Esse aplicativo pega qualquer planilha disponível no google drive e disponibiliza ela em xml. "Crie uma planilha no Google Drive (ou importe). Compartilhe e colabore para refinar seus dados como de costume, desenhe o template no Easy Open Data e formate seus dados da forma que você quiser, qualquer markup, qualquer schema. Publique seu feed de dados abertos, os feeds são atualizados automaticamente quando sua planilha sobre qualquer modificação.".
  • Apache Any23: 'Anything To Triples' (any23) é uma biblioteca, um serviço web e uma ferramenta de linha de comando que extrai dados estruturados de documentos Web. — Fabricante: Apache - Etiquetas: RDF, RDFa, Microdados, Microformatos, CSV
  • Tableau Public: Faz importação de planilhas, banco de dados etc; armazena dados na nuvem — Fabricante: Tableau Software - Etiquetas: planilhas, visualização, Windows, repositório na nuvem
  • URIBurner: baseado em serviço de entrega de RDF, descrição estruturada de recursos endereçáveis na Web (documentos ou coisas do mundo real) em uma variedade de formatos através de URIs HTTP Gnéricas. A tecnologia por baixo é OpenLink Virtuoso Sponger, que utiliza um recurso Web existente (página web, mídia) e gera um grafo RDF dos seus metadados utilizando ontologias bem conhecidas assim como conhecimento específico do sítio. URIBurner então reapresenta esses dados como uma nova página HTML, ou diretamente em RDF em uma variedade de formatos (RDF/XML, text/n3, turtle, JSON).

Ferramentas para Extração de Dados de APIs Corporativas

  • Apache ManifoldCF: Um framework para conectar repositórios de fonte de conteúdo(como Microsoft Sharepoint e EMC Documentum) para carregar em repositórios (assim como Apache Solr, OpenSearchServer or ElasticSearch). — Fabricante: Apache - Etiquetas: API, indexação, catalogação, Corporrativo
  • OpenLink Virtuoso and its Sponger: Virtuoso foi construído com recurso para suportar transformação RDB2RDF (R2RML e mapeamento direto), incluindo replicação, bem como totalmente dinâmica RDF/Grafo/Visões de dados ligados de dados RDB. Cartuchos Sponger customizados devem ser construídos para qualquer API relevante.

Ferramentas de Extração de Dados Excel/CSV/Tabulares

  • Apache Any23veja acima, Ferramentas de Extração de Dados na Web.
  • [cDatset] (http://ramblings.mcpher.com/Home/excelquirks/json): Qualquer coisa relacionada com jSon para Excel, e biblioteca para integrações API REST/Excel - Etiquetas: jSon, Rest , Excel
  • csv2rdf4lod automation: (aka "csv2rdf4lod") csv2rdf4lod fornece uma forma rápida e fácil de serializar RDF a partir de dados disponíveis em CSV. csv2rdf4lod também funciona como um raciocinador customizado para serviço pesado de integração de dados. Embora csv2rdf4lod possa manipular dados tabulares de dumps RDBMS bem estruturados, seu forte é no manuseio de dados tabulares criados manualmente ou através de estratégias de modelagem de informação menos rigorosas -- perfeito para a manipulação de dados reais que evoluíram '' na natureza''. Em ambos os casos, csv2rdf4lod é projetado para agregar e integrar várias versões de vários conjuntos de dados de organizações de múltiplas fontes de forma incremental e compatível com versões anteriores. Forte ênfase em proveniência. - Fornecedor: Tim Lebo @ TWC RPI - Etiquetas: csv, RDF, dados ligados, qualidade de dados, reconciliação, transformação, aprimoramento, proveniência, ligação, workflow
  • csv2xml: Um XSLT para converter de CSV para XML; _Fornecedor: The National Archives - Etiquetas: XML, CSV, TSV
  • Google Refine (observe que isto se tornará Open Refine em breve): Permite limpar, transformar e ligar dados em formato tabular — Fornecedor: Google - Etiquetas: limpeza, transformação, dados tabulares, ligação, reconciliação, ferramenta de desktop
  • MessyTables: Biblioteca Python que consegue abrir bem as diversas versões de arquivos CSV e Excel. Ela é utilizada pelo OpenSpending além de outros projetos OKF.
  • OpenLink Virtuoso Sponger: Já existem cartuchos para apoiar a transformação de CSV e de outros formatos tabulares, para vários formatos, incluindo RDF. Mais cartuchos estão sempre sendo desenvolvidos.
  • RDF Refine: Extensão Google Refine para exportação para RDF — Fornecedor: DERI - Etiquetas: RDF, ligação, reconciliação, plug-in
  • ScraperWiki: Serviço de rotinas de raspagem de páginas web e arquivos excel que fornece uma API web — Fornecedor: ScraperWiki - Etiquetas: HTML, CSV, Excel, API, raspagem
  • Tabels: Permite limpar, transformar e ligar dados, não apenas CSV, etc. mas também PC-Axis, ESRI shapefile, etc. — Fornecedor: CTIC - Etiquetas: limpeza, transformação, dados tabulares, ligação, reconciliação, ferramenta online
  • XLWrap: Um envelope planilha-para-RDF, capaz de transformar planilhas para grafos RDFs arbitrários baseados em uma especificação de mapeamento. Ele suporta o Microsoft Excel e planilhas OpenDocument tais como arquivos CSV/TSV e pode carregar arquivos locais ou baixar arquivos remotos via HTTP. — Fornecedor: Andreas Langegger - Etiquetas: RDF, Excel, CSV, TSV
  • Mr. Data Convertor: Converte dados Excel em um de vários formatos comuns da web, incluindo HTML, JSON e XML. Etiquetas: HTML, JSON, XML, Excel, MySQL, Ruby_

Repositórios (Storage)

Repositórios na Nuvem (Cloud Storage)

  • OpenStack Swift/S3: Nuvem de Código Aberto (IaaS) software utilizando APIs (interoperáveis) similares como a Amazon S3. Provedores/companhias baseadas em mútiplos países que que pode assegurar proveniência de dados no país de origem (e.g. not subject to Patriot Act).
  • Amazon S3: Armazena arquivos para publicação na web; preços com base na quantidade armazenada e número de pedidos — Fornecedor: Amazon - Etiquetas: nuvem, repositório
  • Dropbox: Armazera qualquer arquivo, que pode ser tornado público na web; versão paga para organizações — Fornecedor: Dropbox - Etiquetas: armazenamento de arquivos, nuvem
  • Google Drive: Armazena planilhas, que podem ser preenchidas por meio de formulários que você cria, e pode torná-los públicos na web; usado pelo Blog de dados do Guardian — Fornecedor: Google - Etiquetas: planilhas, formulários, nuvem
  • ScriptDB: Armazena dados JSON para utilização com Script Google Apps — Fornecedor: Google - Etiquetas: JSON, nuvem

Repositórios de JSON (JSON Storage)

_Nota: que acham de repositórios chave:valor ou melhor, veja o artigo NoSQL na wikipédia?

  • Apache CouchDB: Banco de dados JSON com replicação, map/reduce — Fornecedor: Apache CouchDB - Etiquetas: banco de dados json, map/reduce, código aberto
  • Elasticsearch: Banco de dados JSON com busca baseada em HTTP — Fornecedor: Elasticsearch - Etiquetas: banco de dados json, busca, código aberto
  • MongoDB: Banco de dados JSON com replicação, map/reduce e querying — Fornecedor: MongoDB - Etiquetas: banco de dados json, map/reduce, código aberto
  • OpenLink Virtuoso: Importa/digere JSON, e gera também; armazenamento nativo deve ser um RDB/SQL, RDF/Graph, JSON ou outro documento/arquivo, etc.

Repositórios de XML (XML Storage)

  • eXist: Banco de dados nativo XML e plataforma de aplicativos; suporta XQuery, XSLT, JSON, HTML. Assim como XML, pode também armazenar e indexar documentos binários - Etiquetas: banco de dados xml, xquery, xslt, json, código aberto
  • MarkLogic: Banco de dados XML, também pode ser utilizado para armazenar binários; suporta XQuery, XSLT; pode ser configurado para criar aplicativos; Licença 'Express' para desenvolvedores individuais — Fornecedor: MarkLogic - Etiquetas: banco de dados xml, xquery, xslt, código fechado
  • OpenLink Virtuoso: tutoriais de recursos XML

Repositórios de Triplas (Triplestores)

_Nota: que tal repositório de grafos como neo4j ?

Note que Lars Marius Garshol publicou um artigo muito bom com comparações de repositórios RDF.

Recuperação e Carga

Analisadores Semânticos

Bibliotecas de OWL

Raciocinadores de OWL (reasoners)

Ferramentas de Publicação

  • ckan: Para publicação, armazenamento e gerenciamento de conjuntos de dados.
  • iQvoc: Para criar vocabulários SKOS(-XL) (tesáuros, taxonomias, esquemas de classificação etc.)
  • Linked Data Pages
  • LODSPeaKr LODSPeaKr é um franework para fácil e rapidamente criar aplicativos de Dados Ligados e para publicar dados RDF. A ferramenta de modelagem do LODSPeaKr baseada em SPARQL permite que você rapidamente publique aplicativos a partir de consultas SPARQL. Veja a galeria de aplicativos de demonstração! - Fornecedor: Alvaro Graves @ @ TWC RPI - Etiquetas: SPARQL, dados ligados, publicação
  • OpenLink Data Spaces (ODS)
  • URIBurner: baseado em serviço de entrega de RDF, descrição estruturada de recursos endereçáveis na Web (documentos ou coisas do mundo real) em uma variedade de formatos através de URIs HTTP Gnéricas. A tecnologia por baixo é OpenLink Virtuoso Sponger, que utiliza um recurso Web existente (página web, mídia) e gera um grafo RDF dos seus metadados utilizando ontologias bem conhecidas assim como conhecimento específico do sítio. URIBurner então reapresenta esses dados como uma nova página HTML, ou diretamente em RDF em uma variedade de formatos (RDF/XML, text/n3, turtle, JSON).
  • MyTardis: primeiramente utilizado no setor acadêmico para conectar os instrumentos científicos para armazenarem seus dados gerados, ex. O Australia Syncrotron armazena os dados produzidos das suas nove hastes através do MyTardis que então fornece uma GUI para os cientistas compartilharem, licenciarem e publicarem seus dados para referência como parte das suas pesquisas. Pode ser usado com praticamente qualquer instrumento científico que produz dados digitais, incluindo microscópio, microscópio eletrônico, ressonância magnética (fMRI, MRI), sensores ambientais, sensores marinhos, etc.
  • DataFlow
  • Callimachus
  • OASIS OData
  • Google Apps

API de Dados Ligados

Análise / Ferramentas de Mineração de Dados

Ferramentas de Visualização

Veja lista em Data Wrangling Handbook

Frameworks de Desenvolvimento

  • CubicWeb um framework web escrito em Python para carga, armazenamento, consulta, visualização e republicar/compartilhar dados(abertos).