Amazon Browse Nodes - Dit is wat je ervan moet weten
Amazon browse nodes

Amazon Browse Nodes

Wellicht heb je er weleens van gehoord, of misschien ook wel helemaal niet …maar wat zijn Amazon Browse Nodes precies? We gaan het je hieronder eventjes uitleggen.

Wat zijn Amazon Browse Nodes?

Amazon classificeert elk afzonderlijk product in haar catalogus in numerieke categorieën die algemeen bekend staan onder de naam Amazon Browse Nodes. En deze Amazon Browse Nodes worden op een zinvolle en hiërarchische manier gerangschikt en weerspiegelen “parent nodes” en “leaf nodes”. Een leaf node is hierbij de nauwkeurige en specifiekere subcategorie van de bovenliggende parent node. Met andere woorden …de parent nodes vertegenwoordigen de meest algemene classificatie van producten en elke leaf node die daaronder valt weerspiegelt de meest specifieke en relevante onderverdeling van het product in die categorie. Om een voorbeeld te geven: Amazon Browser Node 283155 is de bovenliggende “node” voor boeken en de “5” staat hier voor computer en technologieboeken …een specifiek soort boek in deze Amazon Browser Node.

Op dit moment heeft Amazon meer dan 100.000 van die Amazon Browser Nodes, waarvan velen ontoegankelijk zijn via de API of welke geen praktische informatie bevatten. Het proces om al deze Amazon Browse Nodes te ontdekken verloopt via herhaalde API verzoeken. Er moet minimaal 1 seconde tussen de opdrachten zitten, omdat Amazon geen “master-root startpunt” beschikbaar heeft gesteld met alle parent nodes erin …het zoeken en vinden van alle Amazon Browse Nodes kan een tijdrovende klus zijn. En omdat een master-root met alle parent nodes niet bestaat in de Amazon API, is de eerste stap bij het creëren van een database van Amazon Browse Nodes een lijst te maken van alle diverse categorieën en gerelateerde andere nodes. De meeste uitgebreide lijst met categorieën op 1 plaats is gelokaliseerd op de “Amazon Site Directory” pagina. Klaarblijkelijk, zou deze pagina alle links moeten bevatten om zoekmachines te helpen ontdekken welke productclassificaties er zijn en vertegenwoordigt worden op het Amazon platform. En de meeste links op deze pagina bevatten node-specifieke URL adressen, welke gevonden kunnen worden door PHP te gebruiken.

Nadat niet-essentiële HTML en gedupliceerde referenties zijn verwijdert van de HTML en links, wordt de geconcentreerde lijst opgeslagen in de mySQL database in de SampleNode_US tabel in het formaat van 1 node per regel. Op dat moment wordt elke regel in de SampleNode_US tabel opnieuw door de API gerund. Maar nu is het doel om de “stam” (ancestor) van elke regel te bepalen. Gedupliceerde stammen die uit de API komen worden verwijderd en de resultaten worden dan toegevoegd aan hun eigen database tabel, namelijk de RootNode_US. Op die manier word de root Amazon Browse Node met alle parents ontdekt door het structureren van alle dataresultaten die uit de API komen rollen. En dan wordt tot slot elke regel in de RootNode_US nog een keer door de API gehaald om de “leaf nodes” op te halen, ofwel de Amazon Browse Node ID’s. En elke leaf node wordt ook weer door de API gehaald om te ontdekken of er nog meer “leaves” zijn die onder een leaf vallen.

Wanneer er uiteindelijk niet meer leaves gevonden worden is het proces klaar en wordt de volgende parent node geladen en gerund om te zoeken naar onderliggende leaves en ID’s. Het proces wordt herhaald totdat elke Amazon Browse Node is gecontroleerd op leaves en wanneer alles klaar is worden de resultaten opgeslagen en / of ge-update in de Node_US tabel. Het duur al gauw zo’n 2 tot 3 weken voordat het script alle nodes heeft gerund, helemaal wanneer je daarin meeneemt dat er een “delay” (vertraging) zit tussen de API verzoeken …namelijk elke keer minimaal 1 seconde wat uiteindelijk natuurlijk bij elkaar optelt.
Reactie plaatsen