OpenRefine | |
---|---|
![]() |
|
![]() |
|
Kehityshistoria | |
Vakaa versio | 3.8.7 ()[1] |
Tiedot | |
Lisenssi | BSD-lisenssi |
Aiheesta muualla | |
Verkkosivusto |
OpenRefine, entiseltä nimeltään Google Refine ja sitä ennen Freebase Gridworks, on itsenäinen avoimen lähdekoodin työpöytäsovellus tiedon siivoamiseen ja muuntamiseen muihin muotoihin.[2] Se toimii vastaavalla tavalla kuin taulukkolaskentasovellukset (ja voi työstää taulukkolaskennan tiedostomuotoja). Se kuitenkin käyttäytyy enemmän kuin tietokanta.
OpenRefine käsittelee tietorivejä, joissa on soluja sarakkeissa, samaan tapaan kuin relaatiotietokantojen taulukoissa. OpenRefinessa projekti koostuu yhdestä taulukosta. Käyttäjä voi suodattaa näytettäviä rivejä käyttämällä fasetteja, jotka määrittävät suodatuskriteerit (esimerkiksi näyttää rivit, jossa tietty sarake ei ole tyhjä). Toisin kuin taulukkolaskennassa, useimmat toiminnot OpenRefinessa tehdään kaikille suodatettuna oleville riveille: tietyssä sarakkeessa olevan tiedon muokkaus, uuden sarakkeen luominen perustuen olemassa olevan sarakkeen tietoihin, jne. Kaikki datasetissä tehdyt toimet tallennetaan ohjelmaan ja ne voidaan toistaa toiselle datasetille.
Toisin kuin taulukkolaskennassa, kaavoja ei tallenneta soluihin, vaan muuntaminen kaavalla tehdään kerran ja kaava tallennetaan myöhempää käyttöä varten.[3] Muuntamislausekkeet voidaan kirjoittaa General Refine Expression Language (GREL) -kielellä,[4] Jythonilla (eli Python) ja Clojurella.[5]
Ohjelmalla on web-käyttöliittymä. Se ei kuitenkaan ole verkossa isännöity (SAAS), vaan sen voi ladata vapaasti ja asentaa paikallisesti. Kun OpenRefine käynnistetään, se käynnistää web-palvelimen ja selainkäyttöliittymän, jolla palvelinta hyödynnetään.
Tuonti on tuettu seuraavissa muodoissa:[13]
Jos lähtötiedot ovat ei-standardissa tekstimuodossa, ne voidaan tuoda konaisina riveinä jakamatta sarakkeisiin, ja sarakkeet erotetaan myöhemmin OpenRefinen työkaluilla. Refine tukee arkistoituja ja pakattuja tiedostoja (.zip, .tar.gz, .tgz, .terva.bz2, .gz tai .bz2) ja se voi ladata lähtötiedostoja URL-osoitteesta.
Vienti on tuettu seuraavissa tiedostomuodoissa:[15]
OpenRefine -projektin voi viedä .tar.gz arkistona.
OpenRefine oli alkujaan Metawebin kehittämä Freebase Gridworks ja se on ollut saatavilla avoimena lähdekoodina tammikuusta 2010 alkaen.[16] Google osti Freebasen kehittäjän Metawebin 16. heinäkuuta 2010,[17] ja nimesi Freebase Gridworksin Google Refineksi 10. marraskuuta 2010, julkistamalla samalla version 2.0.[18] Alkuperäinen ohjelmoija David Huynh ilmoitti 2. lokakuuta 2012, että Google lopettaisi pian aktiivisen tukensa Google Refinelle.[19][20][21] Siitä lähtien ohjelmistokoodi on ollut siirtymävaiheessa avoimen lähdekoodin projektiksi nimeltä OpenRefine.[22]