Data challenge: Help onderzoekers waardevolle inzichten halen uit transcripties van 4 kilometer historisch archief.

Challenge info

Dagen Uur Minuten

Deadline: 23 september 2019
Reward: Pilot+contract max €450.000,-

Share challenge

Pilot+contract max €450.000,-

Nog 34 dagen

Het Nationaal Archief heeft de laatste jaren veel gedigitaliseerd. In het innovatieve project ‘De ijsberg zichtbaar maken’, werden met behulp van machine learning twee miljoen scans van historische handgeschreven documenten getranscribeerd. We selecteerden 1 miljoen scans van het archief van de Verenigd Oost-Indisch Company (VOC) uit de 17e en 18e eeuw. Van de Regionaal Historische Centra (RHC) selecteerden we 1 miljoen scans van notariële archieven uit de 19e eeuw. Dit is maar een fractie van de 4 kilometer aan archieven die we in totaal digitaal beschikbaar hebben in de vorm van scans.

 

Nu de eerste paar miljoen scans getranscribeerd zijn tot tekst-data is de volgende uitdaging aangetreden: het vinden van oplossingen waardoor deze grote hoeveelheid transcripties voor een onderzoeker hanteerbaar wordt. Dat is het doel van deze SBIR-Innovatiecompetitie. Belangrijk is daarbij dat de onderzoeker vindt wat hij zoekt. Vaak zoekt hij naar een persoonsnaam, een naam van een locatie of naar een gebeurtenis. Hoe kan hij zo goed mogelijk worden geholpen bij zijn zoektocht? Hoe kan de presentatie of het interactiemodel daarbij helpen?

 

Bij het full-text doorzoeken van de transcriptiedata krijgt de onderzoeker nu een overvloed aan resultaten te verwerken. Hoe ga je met onder andere artificial intelligence de onderzoeker helpen door de data slim te bewerken, te indexeren, te ordenen en te verbinden?

 

 

 

Waar zijn we naar op zoek?

We zijn op zoek naar slimme tools en A.I. die kunnen worden ingezet om de transcriptiedata te duiden. Hoe kan de onderzoeker beter worden geholpen in zijn zoektocht door extra context te bieden bij het zoeken in de gigantische hoeveelheid transcriptiedata. Hoe kan hij zo goed mogelijk worden geholpen? Kan A.I. de onderzoeker helpen een weg te banen door de transcriptiedata? Hoe houd je daarmee rekening met transcriptiefouten en spellingsvarianten.

 

De eindoplossing (niet persé het prototype) moet voldoen aan de Solution Architecture - bijlage 3 (zie beneden). Om je te helpen om goed inzicht te krijgen in de klantwensen zijn meerdere gebruikers persona’s opgsteld. Die vind je in bijlage 4 (zie beneden).

 

De inzendingen worden beoordeeld op de criteria:

  • Impact: 50%
  • Technische haalbaarheid: 40%
  • Economisch perspectief: 10%

Zie voor de toelichting van (de deelaspecten) van deze criteria de complete toelichting (PDF-link)

 

 

 

Waar zijn we niet naar op zoek?

  • Oplossingen om de beeldbestanden (archiefscans) om te zetten in transcripties - dat is al gebeurd.

 

 

 

Wat is er te winnen?

  • Er is voor de fase (ontwikkeling van een prototype) in totaal € 200.000 (inclusief btw) beschikbaar. Daarmee kunnen drie partijen een prototype. Het maximum per prototype bedraagt € 66.666,- (inclusief BTW).
  • Na afronden na de prototype fase van het SBIR traject beoogt het Nationaal Archief om met één partij een vervolgtraject in te zetten voor het verder doorontwikkelen van het prototype. Hiervoor is een budget van €385.000 beschikbaar.

 

 

 

Voorbeelddata

We hebben een export gemaakt uit het transcriptie platform Transkribus van drie inventarisnummers van de VOC en drie inventarisnummers van het notarieel archief. De export is als dataset beschikbaar via: http://sbir.datapakket.nl/Datapakket/

Let op! De export bevat slechts een fractie van de scans die in het kader van dit project worden ontsloten.

De export bevat voor elk inventarisnummer een mapje. In dat mapje zitten de scans (JPG) en de transcriptie data (PAGE XML) van dat inventarisnummer.

Dit zijn ook de bestanden waar de functionaliteit voor zoeken en tonen mee moet werken, met het verschil dat de functionaliteit voor zoeken en tonen de afbeeldingen via de International Image Interoperability Framework (IIIF) server ophaalt. Meer informatie over de dataset vind je in bijlage 2 (zie beneden).

 

 

 

Informatiebijeenkomst

Op dinsdag 3 september 2019 organiseert het Nationaal Archief vanaf 9:30 uur tot 13:00 uur een informatiebijeenkomst in Den Haag.

Aanmelden kan tot uiterlijk 28 augustus. Neem bij uw bezoek aan het Nationaal Archief een geldig legitimatiebewijs mee.

Aanmelden


Het programma van de bijeenkomst ziet er globaal als volgt uit:

  • Welkom – Nationaal Archief
  • Uitleg over de Procedure - RVO
  • Uitleg over inhoud van deze SBIR - Nationaal Archief
  • Solution architectuur- Nationaal Archief
  • User Journey - Nationaal Archief
  • Afsluiting – RVO
  • Mogelijkheid tot netwerken


 

Jullie inzending
Om mee te doen moet je een offerte (projectvoorstel) indienen via email: sbir@rvo.nl

 

Een volledige SBIR-offerte (voor deze fase 2: prototype ontwikkeling) bestaat uit:

  • Het ingevulde en ondertekende SBIR-formulier
  • Het projectplan (inclusief begroting en openbare samenvatting)
  • De managementsamenvatting
  • Het businessplan

Alle formats kan je downloaden van: https://mijn.rvo.nl/sbir-innovatie-in-opdracht
Ook vind je daar verdere toelichting op de beoordelingsprocedure.

 

Alle bestanden moeten als aparte PDF-, Word- of Excelbestanden worden aangeleverd. De benodigde formats voor jullie offerte zijn te vinden op: https://mijn.rvo.nl/sbir-innovatie-in-opdracht. Daarnaast wordt het meezenden van een Video-pitch (vlog) van maximaal 3 minuten in MP4-formaat zeer gewaardeerd.

 

Let op:

  • De mailboxserver van RVO kan een omvang van 10MB of meer niet aan (stuur meerdere mails of gebruik maken van een dienst als We-transfer biedt dan een oplossing).
  • De deadline is hard: te laat ingediende offertes (na maandag 23 september 2019 13.00) worden niet meegenomen in de beoordeling.

 

 

 

Timeline

  • Donderdag 1 augustus: Lancering challenge
  • Dinsdag 3 september 9.30-13.00: informatiebijeenkomst in Den Haag (aanmelden uiterlijk 27 augustus)
  • Maandag 23 september 13.00: Deadline indienen offerte
  • Medio oktober: Bekendmaking uitslag
  • 15 oktober: Opdrachtverstrekking
  • 15 februari 2020: Deadline eindrapport en prototype

 

 

 

Overige informatie

Deze SBIR oproep voor het Nationaal Archief georganiseerd door RVO promoot StartHubs in opdracht van het Ministerie van OCW.

 

SBIR is een innovatie-competitie om ondernemers uit te dagen om nieuwe producten of diensten te ontwikkelen gericht op de aanpak van een maatschappelijk vraagstuk. Er wordt gezocht naar concreet bruikbare toepassingen, die onder andere kunnen worden gebruikt door (semi-) publieke organisaties. De overheid is daarbij een potentiele (maar geen exclusieve) inkoper. De afkorting SBIR komt van het Amerikaanse Small Business Innovation Research program. Het Amerikaanse SBIR programma is alleen toegankelijk voor kleine bedrijven. Het Nederlandse SBIR programma is toegesneden op kleinere ondernemingen, maar staat open voor iedereen, ook voor grote ondernemingen.

 

 

Downloads

  • De gehele SBIR oproeptekst met complete toelichting. PDF-link

 

Bijlages:

  • Bijlage 1: Lees meer over aanleiding, doel en scope van het project in de publicatie 'De ijsberg zichtbaar maken'. PDF-link
  • Bijlage 2: Informatie over de beschikbare archiefstukken/datasets en een beschrijving van de belangrijkste uitdagingen vindt u in 'Toelichting op het doel van deze SBIR-Innovatiecompetitie'. PDF-link
  • Bijlage 3: Een deel van het project is het ontwikkelen van functionaliteit voor het zoeken in de transcripties en het tonen van de resultaten. Een Solution Architectuur moet de contouren en kaders van een oplossing hiervoor schetsen. Lees meer hierover in de bijlage 'Solution Architecture'. PDF-link
  • Bijlage 4: Om te ondersteunen bij de ontwikkeling van de nieuwe website zijn persona’s ontwikkeld, die klantgroepen van het Nationaal Archief vertegenwoordigen. Lees meer in 'Persona’s nieuwe website'. PDF-link
Vragen stellen kan via mail naar sbir@rvo.nl.
Er zijn (nog) geen updates geplaatst.
Log in of Register om je pitch te uploaden.

Overige actuele challenges

View all

Mis nooit een challenge!