Dinsdag 10 mei 2016

Het ‘deep’ en ‘dark web’, een verborgen wereld

Tegenwoordig maakt een groot gedeelte van de wereld gebruik van het internet. In januari 2015 waren er al 3.010 miljard actieve internetgebruikers verspreid over de hele wereld.((http://wearesocial.net/tag/statistics/)) In de toekomst zal dit aantal alleen maar stijgen zolang de technologie zich verder ontwikkelt. Het internet wordt geraadpleegd via de computer, maar ook via mobiele telefoons en bijvoorbeeld tablets. Wanneer je op het internet zit, ben je je er niet van bewust dat het vele malen groter is dan wat je aan het oppervlak ziet. Gebruikers van het internet maken meestal gebruik van zoekmachines als Google of Yahoo, terwijl deze zoekmachines slechts een klein deel van het gehele internet indexeren. Buiten dit geïndexeerde deel van het internet ligt een veel groter gedeelte van het ‘World Wide Web’ dat de zoekmachines nog niet kunnen niet doorzoeken.(( http://www.dekunder.nl/Media/Scriptie%20Maurice%20de%20Kunder%20-%20Grootte%20geindexeerde%20web.pdf))

Hoe werken zoekmachines?
De informatie die je in zoekmachines kunt vinden moet natuurlijk worden verzameld. Het verzamelen van deze informatie kan op twee manieren. Ten eerste kan de informatie door de webbeheerders zelf worden opgestuurd naar de zoekmachines. Wat vaker gebeurt, is dat de zoekmachines kleine computerprogramma’s inzetten om informatie te verzamelen. Deze kleine computerprogramma’s heten webcrawlers. Google gebruikt bijvoorbeeld de webcrawler Googlebot((https://support.google.com/webmasters/answer/182072?hl=nl)) en Yahoo gebruikt de webcrawler Slurp.((https://help.yahoo.com/kb/SLN22600.html)) Deze webcrawlers helpen bij het maken van een internetindex voor de zoekmachines. Om dit te kunnen doen zoeken zij naar webpagina’s om deze vervolgens te kopiëren en hier een klein pakketje van te maken. Met het kopiëren wordt alleen de belangrijkste informatie door de webcrawlers verzameld, waardoor het makkelijker is voor de zoekmachine om de informatie op te slaan in de juiste index. Of een webpagina wordt geïndexeerd is afhankelijk van verschillende factoren, bijvoorbeeld het bestandsformaat. Een webcrawler kan namelijk niet alle formaten lezen. Vroeger kon alleen HTML geïndexeerd worden. Tegenwoordig zijn er steeds meer bestandstypen die geïndexeerd kunnen worden. Nu kunnen bijvoorbeeld ook PDF-bestanden worden geïndexeerd. Of een webpagina geïndexeerd kan worden is ook afhankelijk van de vraag of de al wel geïndexeerde pagina’s links bevatten naar andere webpagina’s. De webcrawler zal dan de link volgen om deze webpagina vervolgens ook te indexeren. Het volgen van links door de webcrawler is te vergelijken met het doorklikken op een nieuwssite.((http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/)) Na het afleveren van de gekopieerde informatie wordt het opgeslagen in de database van de zoekmachine. Een zoekmachine ontvangt elke dag miljoenen van deze kleine pakketjes informatie om ze vervolgens op de juiste plaats in de index te plaatsen. Door steeds opnieuw terug te keren naar de webpagina’s zorgen de webcrawlers ervoor dat de informatie zoveel mogelijk up-to-date blijft.((https://www.youtube.com/watch?v=CUgXK5DYXQA))

Het ‘deep web’
Het is voor de webcrawlers niet mogelijk om het gehele internet te indexeren. Hierdoor geven de zoekmachines geen totaalbeeld van het internet weer. Sommige websitebeheerders gebruiken een bepaalde code op hun website wat ertoe leidt dat de webcrawlers de webpagina niet kunnen indexeren. Een voorbeeld hiervan is het robots.txt bestand. Maar waarom zouden websitebeheerders hier gebruik van maken? Denk bijvoorbeeld aan je bankgegevens. Het zou voor de houder van de rekening niet prettig zijn als al je gegevens op straat liggen en te vinden zijn in de zoekmachines. Maar ook webmail of betaalsites zijn vaak niet te vinden via de zoekmachines. Een ander probleem bij het indexeren zijn bijvoorbeeld de zoekformulieren op pagina’s. Wanneer je een prijs zoekt voor een hotel op een internetpagina, voer je vaak een zoekformulier in met datum en bestemming. De uitkomst van deze zoekopdracht wordt niet geïndexeerd door de webcrawlers, omdat de webcrawlers hyperlinks binnen websites opvolgen. De uitkomsten van de zoekopdracht vallen hier niet onder.
Het deel van het internet dat de webcrawlers niet kunnen indexeren heet het ‘Deep World Wide Web’. Als je dit in combinatie met het ‘Surface World Wide Web’ bekijkt, heb je het hele ‘World Wide Web’.(( http://quod.lib.umich.edu/j/jep/3336451.0007.104?view=text;rgn=main)) Het deep web is vele malen groter dan het surface web. Het gehele ‘World Wide Web’ zou wel voor 96% bestaan uit het deep web en het wordt alleen maar groter.((http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/))

Het ‘dark web’
Het dark web moet niet worden verward met het deep web. Het dark web is een klein onderdeel van het deep web. Om op het dark web te kunnen surfen moet je bezitten over bepaalde software, zoals The Onion Router (hierna: TOR). Het dark web is niet toegankelijk via normale webbrowsers en is bewust verborgen. Dankzij software als TOR is het makkelijker om anoniem te surfen. Wanneer er data wordt verzonden naar een ontvanger via het TOR netwerk, zal deze data versleuteld worden zodat het niet leesbaar is. De data wordt daarnaast niet rechtstreeks doorgestuurd van verzender naar ontvanger, zoals bij een normale webbrowser wel gebeurt. Het gaat via verschillende routers, dit zijn computers die informatie verwerken. Bij elke server wordt het onderdeel leesbaar waarin staat waar de data vervolgens naartoe moet worden gestuurd. Dit proces herhaalt zich totdat de data bij de uiteindelijke ontvanger binnenkomt. Alleen de ontvanger zal dus de uiteindelijke data kunnen inzien.(( https://decorrespondent.nl/131/Wat-is-Tor-/6379307-58d90c77)) Terechtkomen op het dark web is niet zo moeilijk, je moet alleen weten waar je moet kijken.((http://www.pcadvisor.co.uk/how-to/internet/what-is-dark-web-how-access-dark-web-deep-joc-3593569/))

Het dark web is waarschijnlijk het bekendste deel van het deep web. Regelmatig komt het negatief in het nieuws, denk aan de ondergrondse marktplaats Silk Road en Silk Road 2.0, die inmiddels beiden zijn opgerold. Silk Road was een digitale markt, waar de meeste betalingen werden gedaan in bitcoins. Vrijwel alles wat denkbaar is, was hier te koop. Zo was er illegale drugshandel te vinden, maar vond er ook bijvoorbeeld handel in wapens en kinderpornografie plaats.((http://www.nu.nl/internet/3922498/fbi-en-europol-rollen-digitale-zwarte-markt-silk-road-20.html)) Het dark web wordt behalve voor allerlei louche zaken ook gebruikt door mensen die in repressieve regimes leven. Op het dark web is het dan mogelijk om vrij te communiceren naar de buitenwereld. Maar je ziet ook onderzoekers surfen op het dark web of andere mensen waarbij de interesse is gewekt of die hier onderzoek naar doen.((http://motherboard.vice.com/nl/read/the-legal-side-of-the-deep-web-is-wonderfully-bizarre))

Opsporing op het ‘dark web’
Zoals hiervoor al genoemd spelen zich naast de legale activiteiten op het dark web ook illegale activiteiten af. Voor de opsporingsautoriteiten is het lastig grip te krijgen op dit deel van het internet. Voor de opsporing is vooral specialistische kennis nodig, terwijl deze kennis binnen de opsporingsteams vaak ontbreekt. Inmiddels hebben INTERPOL Global Complex for Innovation (IGCI) en TNO een training ontworpen waarin misdaadbestrijders leren hoe criminelen handelen op dit deel van het internet.((http://socialmediadna.nl/samen-ten-strijde-trekken-op-het-dark-web/)) Op deze manier kan de specialistische kennis worden vergroot en deze vorm van criminaliteit beter worden bestreden.

Een ander punt dat in de weg staat aan een effectieve opsporing op het dark web is dat er vaak sprake is van zaken die grensoverschrijdend van aard zijn.(( http://infosecuritymagazine.nl/2014/09/30/europol-levendige-handel-in-cybercrime-as-a-service/)) Servers waarop de illegale gegevens staan bevinden zich veelal buiten onze landsgrenzen. Bij de aanpak van criminaliteit op het internet is een internationale samenwerking daarom van belang voor een vlotte afhandeling van rechtshulpverzoeken.((http://www.volkskrant.nl/archief/de-digitale-onderwereld~a3223214/)) Een groot aantal landen (waaronder de VS en een groot aantal Europese landen, zoals Duitsland en Frankrijk) heeft zich inmiddels verenigd ter bestrijding van online marktplaatsen. Zij doen dit onder de naam ‘ITOM’, wat staat voor Illegal Trade on Online Marketplaces. Met de oprichting van ITOM worden de handen ineen geslagen om zo de opsporing te vergemakkelijken.((https://www.om.nl/onderwerpen/cybercrime/@89990/project-itom-vuist/))

De toekomst
Er wordt ondertussen gewerkt aan een zoekmachine om het deep web te kunnen doorzoeken.((http://www.nu.nl/internet/3990150/darpa-ontwikkelt-zoekmachine-deep-web.html)) Het Defense Advanced Research Projects Agency (hierna: Darpa) werkt samen met de National Aeronautics and Space Administration (NASA) aan dit project. De zoekmachine draagt de naam Memex en is in september 2014 gelanceerd, maar er worden nog steeds verbeteringen aangebracht. Wanneer Memex volledig in werking is, zou het wel eens een goede concurrent kunnen zij voor bijvoorbeeld zoekmachines als Google.(( http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/)) De zoekmachine moet naast het ‘Surface World Wide Web’ dan ook het ‘Deep World Wide Web’ weergeven.

Zolang de technologie zich nog ontwikkelt zal het deep- en dark web zich ook verder ontwikkelen. Er zullen steeds meer webpagina’s bijkomen op het ‘World Wide Web’. Zowel het Surface web als het Deep web zullen hierbij in omvang toenemen. Het dark web zal daarnaast waarschijnlijk zijn aantrekkingskracht behouden door de anonimiteit die redelijk gewaarborgd wordt in vergelijking met het gewone internet.

Conclusie
Er bestaat een groot gedeelte op het internet dat niet geïndexeerd wordt door zoekmachines. Het gedeelte dat niet geïndexeerd kan worden door zoekmachines noemen we het deep web. Het deep web bestaat niet slechts uit illegale inhoud. Ook bankgegevens of bijvoorbeeld webmail behoren tot het deep web en kunnen meestal niet worden geïndexeerd. Het deep web moet niet verward worden met het dark web. Het dark web is slechts een klein onderdeel van het deep web waarvoor je speciale software nodig hebt om toegang te krijgen. Het dark web heeft wel de reputatie van een illegale markt. Maar daarnaast is het dark web ook een plaats waar je in vrijheid je mening kunt uiten. De opsporing van illegale activiteiten op het dark web levert problemen op. Dit wordt veroorzaakt door een gebrek aan specialisten op dit gebied. Daarnaast zorgt het grensoverschrijdende aspect van deze vorm van criminaliteit ook voor problemen. Doordat de servers vaak in het buitenland staan moeten rechtshulpverzoeken in worden gediend. Dit gaat vaak zo langzaam, dat het rechtshulpverzoek op een gegeven moment alweer achterhaald is.

Momenteel wordt een zoekmachine die het deep web doorzoekt verder ontwikkelt, de zoekmachine Memex. Dit moet het surface- en daarnaast ook het deep web doorzoeken. In de toekomst zal het gehele ‘World Wide Web’ alleen maar groter worden en de techniek zich verder ontwikkelen. Er zullen dus grote aantallen pagina’s bijkomen die geïndexeerd kunnen worden, maar ook pagina’s die niet geïndexeerd kunnen worden.