Despre acest proiect
Acest proiect urmeaza sa dezvolte o specificatie pentru un mod standardizat de ambalare a datelor de cercetare bazate pe fisiere pentru reutilizare si distributie. (Arhivarea si conservarea nu sunt preocupari imediate, dar vrem sa lucram cu acele comunitati de practica cat mai curand posibil).
Versiunea curenta este 1.0
Peter Sefton si Peter Bugeia au dezvoltat o modalitate de grupare a datelor din depozitul [HIEv] pentru depozitare in depozitul universitar de date de cercetare si pentru reutilizare de catre cercetatori. Aceasta lucrare a fost prezentata la eResearch Australasia in 2013. Ideea a fost preluata de proiectul Cr8it cu care am fost amandoi implicati, dar fara beneficiul unei specificatii pentru a alinia cele doua lucrari. Alte doua proiecte, [Colectii] si Calcyte au imbratisat ideea.
Este timpul pentru o specificatie asupra careia putem fi de acord cu totii pentru structura casetelor de date si a standardelor de metadate pe care sa le folosim si sa continuam cu crearea de instrumente care sa ajute cercetatorii.
Cerinte
In acest context, datele de ambalare inseamna:
-
Abilitatea de a distribui un set de date printr-un singur fisier (folosind Zip, TAR sau un format de imagine de disc, dupa caz) si / sau printr-un URL cu verificari de integritate
-
Gazduieste un set de date pe un server web cu controale de acces adecvate cu:
- O pagina HTML care contine metadate sumare pana la (cel putin) nivelul fisierului
- Data conectata citita de masina
Obiectivele sunt:
- Pentru a maximiza utilitatea datelor pentru cercetatori (inclusiv „viitorii noi” cercetatori originali). Avand in vedere ca un cercetator a gasit un pachet DataCrate, ar trebui sa poata spune ce este , cum pot fi utilizate datele si ce contin toate fisierele.
-
Pentru a permite descoperirea datelor prin expunerea metadatelor cat mai larg posibil (respectand drepturile de acces)
-
Pentru a permite consumul automat in depozite sau cataloage precum ReDBOX.
NOTA: Formatul pachetului nu trebuie sa poata fi creat de oameni, acest lucru va fi realizat de instrumente software precum Cr8it si Calcyte.
FAQ
De ce inventezi un nou format?
Nu suntem cu adevarat. Data Crate se bazeaza pe specificatiile de ambalare Bagit, cu metadate suplimentare citite de oameni si de masini in JSON-LD.
De ce Schema.org? Cu siguranta exista formate de metadate de uz general adecvate pentru datele de cercetare
Ei bine, de fapt nu, nu exista nici o schema generala, pregatita pentru date legate, bine acceptata, extensibila, care sa acopere toate tipurile de metadate de scop general pe care ati putea dori sa le adaugati la un pachet de date de cercetare si la fisierele sale componente , inainte de al trimite in lume.
Formate bazate pe RDF
DCAT este aproape de ceea ce ne-am dorit pentru acest proiect, dar nu are acoperire pentru toate domeniile pe care le-am dorit la un nivel inalt si nu gestioneaza structura seturilor de date.
videos de investo travestis dotadas
super maduras lesbianasx
porno por el culo cinema gropers
videos gays españoles me corro en la boca de mama
porno retro incesto trios gays
maduras latex coñosxxx
sexo videos gratis corridas en la playa
comiendo coño mamada de rodillas
maduras españolas amater mature.com
españolas follando en la playa pajas de madres
xxxxporno pelis porno francesas
mi mujer me folla el culo porno chileno
pprno orgias familiares
pornovideo mía kalifa
p0rno aventura en pelotas xxx
humillada y follada argentina follada
incesto real casero desnudas en la cocina
video famosas desnudas videdos porno
pajas en coche super tetudas
DCAT foloseste, de asemenea, termeni dintr-o gama larga de vocabulare, facandu-l mai complicat de utilizat decat Schema.org. Totusi, este bazat pe RDF. Exista un efort de extindere a DCAT, dar va dura ceva timp pana la finalizare.
Pachetele de obiecte de cercetare (pachete RO) sunt foarte apropiate in spirit de Data Crates si exista chiar o incercare de a le mapa pe BagIt. Cu toate acestea, metadatele RO se concentreaza foarte mult pe diferentele foarte nuantate intre diferitele tipuri de creatori de date de cercetare care utilizeaza PAV, fara a aborda o multime de metadate de tip general cine-ce-unde.
Ontologia PROV a fost utilizata pentru a descrie activitatile de cercetare, dar modelul sau de date este prea complicat pentru o simpla modelare a datelor. Nu ne permite sa exprimam „o entitate a creat acest fisier”. In activitatile Prov creati fisiere. Nu este practic sa modelam fiecare relatie de autor cu un act intermediar de creatie.
Formate care nu sunt bazate pe RDF
Datacite are o multime de metadate care sunt utile pentru casetele de date, dar este orientat spre descrierea lucrurilor la nivelul setului de date, nu la nivelul fisierului. De asemenea, se concentreaza pe datele publicate care au un DOI (desi puteti introduce un DOI nul). A existat o versiune RDF a Datacite, dar este depasita.
RIF-CS este un standard creat de Serviciul National de Date din Australia, bazat pe ISO 2146 pentru diseminarea datelor, care are o acoperire buna in scopuri generale, dar este un format bazat pe XML care nu poate fi utilizat direct intr-un context de date legate.
Pachetele de date fara fractiuni sunt atractive prin faptul ca sunt metadate simple, bazate pe JSON, dar nu interopera cu reteaua semantica, deoarece nu exista o versiune JSON-LD si nu fac referire la abordarile de masa ale metadatelor, cum ar fi Dublin Core, cu exceptia tranzitoriei . Acestea fiind spuse, mersul incrucisat intre DataCrate si datele Frictionless ar fi usor.
Dar continutul fisierelor?
Versiunile initiale ale DataCrate nu se refera la continutul fisierelor, dincolo de utilizarea descriptorilor de format de fisier Pronom. Versiunile viitoare ale DataCrate pot urma exemplul proiectului de date Frictionless, care permite definirea anteturilor de coloana si a variabilelor din fisierele de date.
JSON-LD intr-adevar? Nu este un pic acolo?
Amintiti-va, Schema.org, care este un standard sponsorizat de companiile web importante are la fel de JSON-LD ca codificarea recomandata. Web-ul comercial foloseste aceasta abordare de ani de zile.
https://www.w3.org/TR/vocab-dcat/#Property:dataset_contactPoint








