Σελίδες

Δευτέρα 14 Σεπτεμβρίου 2020

Ο αλγόριθμος που «διαβάζει» το Διαδίκτυο

Γιάννης Παλιούρης



Το γλωσσικό μοντέλο Τεχνητής Νοημοσύνης GPT-3, άφησε ενεούς τους επιστήμονες όταν κατόρθωσε να συντάξει ολόκληρες παραγράφους, που να βγάζουν νόημα, χωρίς την ελάχιστη ανθρώπινη παρέμβαση. Και όχι μόνο, αφού το GPT-3 συμπλήρωνε αυτόματα υπολογιστικά φύλλα, ακόμα και γραμμές κώδικα. Ωστόσο, τα λάθη δεν έλειψαν, απόδειξη ότι ακόμα και η πιο προηγμένη μορφή Τεχνητής Νοημοσύνης υπολείπεται της επιδεξιότητας των ανθρώπινων νευρώνων, ένα δώρο της πολυετούς εξέλιξης του είδους μας.

Αν και τα γλωσσικά μοντέλα Τεχνητής Νοημοσύνης έχουν κάνει πραγματικά άλματα, παραμένουν απλώς εξαιρετικές μηχανές ανάγνωσης και μίμησης, με περιορισμένες, όμως, δυνατότητες κριτικής σκέψης. Αυτό είναι ένα σημαντικό πρόβλημα, εάν θέλουμε να έχουμε στην υπηρεσία μας μια αξιόπιστη μορφή Τεχνητής Νοημοσύνης. Και αυτό θέλει να δημιουργήσει η Diffbot, χάρη σε ένα λογισμικό που θα σαρώσει το περιεχόμενο του συνόλου του ίντερνετ, προκειμένου να γίνει τόσο «έξυπνο» όσο εμείς.


Γραφήματα γνώσης

Η Τεχνητή Νοημοσύνη της Diffbot θα διαβάσει κάθε σελίδα σε ολόκληρο τον δημόσιο ιστό, σε πολλές γλώσσες, και θα εξαγάγει όσα λογικά γεγονότα από αυτές τις σελίδες μπορεί. Οπως και το GPT-3, το σύστημα της Diffbot «μαθαίνει» με αυτή τη μέθοδο. Αλλά αντί να χρησιμοποιήσει αυτά τα δεδομένα για να εκπαιδεύσει ένα γλωσσικό μοντέλο, θα μετατρέπει αυτό που διαβάζει σε μια σειρά λογικών συνειρμών: Ο Ισαάκ Νεύτων διατύπωσε τους τρεις μνημειώδεις νόμους της κίνησης και τον νόμο της βαρύτητας. Σε αυτούς τους νόμους στηρίχθηκε η κλασική φυσική. Αρα, ο Ισαάκ Νεύτων είναι ο θεμελιωτής της κλασικής φυσικής.

Το συμπέρασμα αυτό μπορεί να προκύπτει αβίαστα ακόμα και για έναν μαθητή του Γυμνασίου, αλλά για έναν αλγόριθμο αποτελεί άλυτη σπαζοκεφαλιά. Και αυτό γιατί βρίσκεται ενώπιον μιας σύνθετης νοηματικής δομής, γνωστής ως γράφημα γνώσης. Τα γραφήματα γνώσης -«Knowledge Graphs»- δεν είναι νέα κατάκτηση. Αντίθετα, τα χρησιμοποιούν εδώ και χρόνια οι μηχανές αναζήτησης, ώστε οι αλγόριθμοι που τις τροφοδοτούν να απαντούν στα ποικίλα ερωτήματα των χρηστών με τέτοιο τρόπο που δείχνει ότι καταλαβαίνουν καλύτερα τι τους ζητείται. Ωστόσο τα γραφήματα γνώσης σχεδιάζονται «στο χέρι» από ανθρώπους. Με άλλα λόγια, η δύναμη των αλγορίθμων εξαρτάται από το πόσο καλός είναι ο προγραμματιστής που τους «γράφει».

Η Diffbot θέλει να το αλλάξει αυτό, αυτοματοποιώντας πλήρως τη διαδικασία κατασκευής γραφημάτων γνώσεως, δημιουργώντας το μεγαλύτερο γράφημα γνώσεων που δημιουργήθηκε ποτέ. Για να συλλέξει τα απαραίτητα δεδομένα, η Τεχνητή Νοημοσύνη της Diffbot «διαβάζει» τον ιστό όπως θα έκανε ένας άνθρωπος, αλλά προφανώς πολύ πιο γρήγορα.

Αρχικά σκανάρει κάθε ιστοσελίδα ως εικόνα, ακατέργαστα pixels, και χρησιμοποιεί αλγόριθμους αναγνώρισης εικόνας για να κατηγοριοποιήσει τη σελίδα ως έναν από είκοσι διαφορετικούς τύπους ανάρτησης: βίντεο, εικόνα, άρθρο, συμβάν, νήμα συζήτησης. Στη συνέχεια, εντοπίζει βασικά στοιχεία, όπως τίτλο, συγγραφέα, περιγραφή προϊόντος ή τιμή και χρησιμοποιεί τεχνικές NLP (Nευρο-Γλωσσικoύ Προγραμματισμού) για εξαγωγή «γεγονότων» από οποιοδήποτε κείμενο.

Η Diffbot εξάγει γεγονότα από σελίδες γραμμένες σε οποιαδήποτε γλώσσα, πράγμα που σημαίνει ότι μπορεί να απαντήσει σε ερωτήσεις σχετικά με τον Ισαάκ Νεύτωνα, χρησιμοποιώντας γεγονότα που λαμβάνονται από άρθρα σε κινεζικά ή αραβικά, ακόμη και αν δεν περιέχουν τον όρο Ισαάκ Νεύτων στα ελληνικά.

Η περιήγηση στον ιστό σαν άνθρωπος επιτρέπει στη Diffbot να «βλέπει» τα γεγονότα όπως εμείς. Σημαίνει επίσης ότι πλοηγείται στον ιστό όπως εμείς. Μόνο που γνωρίζει τον ιστό με τρόπο που εμείς ποτέ δεν θα μπορέσουμε. Και κάπου εδώ ξεκινούν τα ερωτήματα.

Ποιος «χαίρεται» τη γνώση;

Η Diffbot ανιχνεύει τον ιστό ασταμάτητα και αναδημιουργεί νέα γραφήματα γνώσεων κάθε τέσσερις έως πέντε ημέρες. Ως αποτέλεσμα ο αλγόριθμος της εταιρείας προσθέτει 100 έως 150 εκατομμύρια «οντότητες» γνώσεων κάθε μήνα, καθώς εμφανίζονται νέοι άνθρωποι στο διαδίκτυο, δημιουργούνται εταιρείες, κυκλοφορούν προϊόντα και αναρτώνται ατελείωτες δημοσιεύσεις. Και όλα αυτά απολύτως νόμιμα, αφού το διαδίκτυο είναι ανοιχτό για όλους, ακόμα και για αλγόριθμους - ή μάλλον περισσότερο γι' αυτούς. Αλλωστε, δεν θα ήταν παράνομο για έναν άνθρωπο να διαβάσει και να απομνημονεύσει κάθε πληροφορία που έχει δημοσιευτεί ποτέ, αν φυσικά μπορούσε. Γιατί, λοιπόν, να μην το κάνει αυτό και μια μηχανή; Το αποτέλεσμα, πάντως, είναι ότι η Diffbot προσθέτει συνεχώς νέο υλικό στα κέντρα δεδομένων της καθώς αυξάνονται τα γραφήματα γνώσεων που δημιουργεί ο αλγόριθμός της. Προς το παρόν, επιστήμονες και ερευνητές έχουν δωρεάν πρόσβαση στο γράφημα γνώσεων της εταιρείας. Αλλά η Diffbot έχει επίσης περίπου 400 πελάτες που πληρώνουν. Η μηχανή αναζήτησης DuckDuckGo τη χρησιμοποιεί για να ενισχύσει την ακρίβεια των αποτελεσμάτων που δίνει στους χρήστες. Το Snapchat για να εξάγει στιγμιότυπα από σελίδες ειδήσεων. Και κάποιες ιστοσελίδες χρηματοοικονομικών ερευνών για πληροφορίες σχετικά με το χρηματιστήριο.


*Αναδημοσίευση από τον Φιλελεύθερο που κυκλοφόρησε το Σαββατοκύριακο 12-13 Σεπτεμβρίου


liberal.gr


Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου

Τα μηνύματα που δημοσιεύονται στο χώρο αυτό εκφράζουν τις απόψεις των αποστολέων τους. Το ιστολόγιο μας δεν υιοθετεί καθ’ οιονδήποτε τρόπο τις απόψεις αυτές. Ο καθένας έχει δικαίωμα να εκφράζει την γνώμη του, όποια και να είναι αυτή.
Παρακαλούμε να γράφετε με Ελληνικούς χαρακτήρες, επίσης οι σχολιασμοί σας να μη ξεφεύγουν από τα όρια της ευπρέπειας.
Σχόλια τα οποία περιέχουν ύβρεις, θα διαγράφονται.
Τα σχόλια πλέον ελέγχονται από τους διαχειριστές του ιστολογίου, γιαυτό θα υπάρχουν καθυστερήσεις στην εμφάνιση τους. Γενικά γίνονται όλα αποδεχτά, εκτός από αυτά που είναι διαφημίσεις ή απάτες.
Σας ευχαριστούμε για την κατανόηση.
(επικοινωνία:eleftheroi.ellines@gmail.com)