Pagina's

donderdag 28 februari 2013

VOGIN-IP 28 februari - workshop beeld en geluid

Op donderdag 28 februari was ik aanwezig bij de VOGIN-IP lezing in de Brakke Grond in Amsterdam. Deze dag stond in het teken van workshops en lezingen rond zoeken en vinden op internet.

Een verslag van alle lezingen en workshops staat op http://vogin-ip-lezing.net/terugblik-slides/


Workshop 'zoeken naar beeld en geluid' door Jeroen Bosman,
vakreferent Geowetenschappen Universiteit Utrech'.
foto: Wouter Gerritsma
 
Zie Slideshare presentatie van Jeroen Bosman

Deel 1 Beeldmateriaal


Er is een semantic gap bij het zoeken in beeldmateriaal. 
Ik zie een papegaai. De computer ziet nullen en enen.
Beeld en geluid bevatten geen (computerleesbare) woorden. Er is verschil tussen wat je ziet en hoe je dat interpreteert.
 
Text based image en sound retrieval:
Computer zoekt op tekst die om beeld staat
Google geeft niet vrij hoeveel tekst rond beeld ze mee- metadateren
 
Content based image and sound retrieval:
Al langer gebruikt bij defensie. Computer " herkent" de voorstelling(cbir) of geluiden
Dankzij smartphones komen er steeds meer applicaties die automatisch beeld en geluid herkennen. Bijv. Shazam
Maar nog op een vrij laag niveau als je bedenkt hoeveel betekenis er in beeld zit

Tekst op pagina`s wordt voor 85  procent geindexeerd, maar voor beeld zijn er enorme verschillen, vaak wordt maar 50% van het beeldmateriaal geïndexeerd,  is ook afh van zoekmachines.

Niveaus van beeldontsluiting:
- Pre-iconografisch: wat zie ik. Kleuren rood, wit, blauw als je plaatje vlag ziet
-Iconografisch: wat stelt het voor, wat betekent het. Bijv. nederlandse vlag
-Iconologisch: wat is het concept dat het symbolisert- interpretatie nodig, is cultuurgebonden
 
 
Verschillende manieren om te zoeken naar beeld:
1 t/m 4 = cbir - content based image retrieval
 
1) chromatik search: http://chromatik.labs.exalead.com 
Iets dat je zoekt is groen of je zoekt iets groens

2) zoeken naar een schets, moet je wel kunnen tekenen
Ibm qbic, retrievr
Whatthefont (lettertypes zoeken)
 
3) zoeken op basis van afbeeldingen, bijv foto met spinnenweb - url van je foto gebruiken.
In google: in zoekbalk search by image. Gebeurt m.n. op basis van kleuren.
Zo uitzoeken welke sites jouw foto gebruikt hebben - fotografen zijn hier blij mee

4) zoeken op basis van beeldherkenning door computer: semantische concept detectie
Op basis van veel voorbeelden leert de computer per individueel concept hoe afbeeldingen daarvan - ook in video - te herkennen zijn. Meeste voorbeelden nog in conceptfase.
 
 5) text based image retrieval
Inhoudelijke woorden: bestandsnaam, tekst uit omgeving, toegekende trefwoorden/ metadata
6) zoeken naar formele kenmerken, in/ uit beeldbestand zelf( exif metadata of iptc metadata). Gebruik http:// gbimg.org of irfanview om deze metadata zichtbaar te maken. Zijn technische gegevens. Bijv gps-gegevens bij foto.
 
7) advanced search met google images, ná zoekactie.
Searchtools: geeft gevorderden opties, bijv any size - exactly.




 





Testje: Jeroen stelt ons een paar vragen:
Zoeken we meestal op laptop/ desktop of mobiel?
Engelstalige interface of ned.?
Je krijgt grote relevantieverschillen. Goed om je bewust van te zijn. Filterbubble!

Zoekoefening: 
Je hebt ooit plaatje van bananen met koektrimmel met choco- kerstkransjes gezien. Hoe zoek je dit terug? Op flickr vind je dit alleen met woorden 'gezond ongezond'. Hangen geen tags 'bananen' etc aan. Wat is het doel van de foto? Proberen in hoofd van de degene te kruipen die foto ontsloten heeft. Evt ook met vagere concepten zoeken. Evt met kleur, sfeer.Andere vraag dan wat staat er letterlijk op de foto?
 
 

Deel 2: Geluid

Verschijningsvormen: muziek, spraak, instrumentaal, ander geluid

Niveaus van geluidontsluiting:
Non-verbaal / Verbaal
Pre-audiografisch: wat hoor ik  / hard of zacht geluid etc.
Audiografisch: wat betekent het ( sirene ned ambulance). Wat wordt gezegd?
Audiologisch: wat is het concept dat het symboliseert, alarm, noodgeval ( kennis van context en interpretaie nodig)

 
Verschillende manieren om te zoeken naar geluid:
 
1) Content based audio/ sound recognition, bijv Shazam (herkent liedjes).
Shazam meet frequentie van pieken in volume op bep. tijdstippen. Volgorde in pieken is uniek. Maakt soort vingerafdrukken. Shazam gebruikt jouw persoonlijke gegevens in ruil voor dienst.
Er zijn meer van dit soort projecten, zoals Witchcraft plus project van Meertens Instituut. of Soundhound.
 
2) Spraakherkenning gaat grote vlucht nemen!
 
Zoeken in Youtube. Filters na zoekactie gebruiken!
Bijv. CC ( closed caption) - zoeken in ondertitels (spraak) bij filmpjes
Bijv. Pope Benedictus -
Beta-versie: translate captions (hierop kun je ook zoeken)
Dit zou grote stap voorwaarts zijn om semantic gap te overbruggen

3) text based audio retrieval:
Inhoudelijk: zoals zoeken in metadata, betandsnaam, tekst in omgeving geluid
Allmusic.com: album moods
 
4) social network based audio retrieval
Op basis van gebruikskenmerken, social media
 
5) zoeken met zoekmachines
Wel zoeken met mp3 in url, filteren op audiobestanden niet mogelijk.
 
Gespecialiseerde zoekmachines, zoals bijv. Soundjax.com : enkele 10000-den geluiden geïndexeerd.

Zoekstrategie voor audiozoeken: zie slideshare!
 
 

Deel 3: videomateriaal

Bronnen en zoeksystemen:
Youtube en Vimeo, voor geupload materiaal en magere ontsluiting. Unieke films moeilijk te vinden.

In Youtube : filtermogelijkheden gebruiken!











Maar niet te snel op lange films filteren. 
Bijv. How to build a bicycle wheel (bestaat uit 13 delen, zou je dan niet gevonden hebben).
Pas relevantie-ordening in Youtube aan!
 
Maar kijk ook naar Blinkx, voxalead, Google video (vindt video op willekeurige sites).
Probeer filter ' duration' in Google.
Veel overlap, mensen zetten filmpjes vaak op meerdere sites.
 
Probeer verschillende opties uit om Filter Bubble te omzeilen!
 
Archieven en televisieuitzendingen:  zie slideshare!
- Beeld en geluid
- uitzendinggemist > 2005
- BBC archive 1970>; je vindt materiaal dat niet via Google te vinden is.
- Surf Media ( academia). Deels terug te vinden via Picarta.

Denk ook aan gespecialiseerde videosites zoals TED, Medtube, BirdCinema, Open Beelden ( europeana-project, vergelijk wikimedia)
 
Toekomst: MOOC's! (massive open online courses). Bevatten veel beeldmateriaal. Waar zetten we dat bij elkaar? Hoe zoeken we erop? Hoe vinden we ze terug?
 
 









Geen opmerkingen:

Een reactie posten