Το Πανεπιστήμιο της Ουάσινγκτον (UW) ανέπτυξε ένα σύστημα τεχνητής νοημοσύνης με την ονομασία "Target Speech Hearing" που βοηθά τους χρήστες να επικεντρωθούν σε έναν μόνο ομιλητή σε θορυβώδη περιβάλλοντα κοιτάζοντάς τον για τρία έως πέντε δευτερόλεπτα.
Το σύστημα αυτό, που παρουσιάστηκε στο συνέδριο ACM CHI, χρησιμοποιεί μηχανική μάθηση για να απομονώνει και να ενισχύει τη φωνή του επιθυμητού ομιλητή σε πραγματικό χρόνο, ακόμη και όταν ο χρήστης κινείται.
Επί του παρόντος, η τεχνολογία δοκιμάστηκε σε 21 άτομα, τα οποία ανέφεραν σημαντικά βελτιωμένη σαφήνεια, ενώ μελλοντικά σχεδιάζεται να επεκταθεί σε ακουστικά και ακουστικά βαρηκοΐας.
Το κείμενο διερευνά στρατηγικές και τεχνολογίες για τη βελτίωση της ακουστικής εμπειρίας σε θορυβώδη περιβάλλοντα, εστιάζοντας στα ακουστικά τεχνητής νοημοσύνης, στον προηγμένο σχεδιασμό ήχου και στις τεχνολογίες ακύρωσης θορύβου.
Επισημαίνει τις προκλήσεις των σύγχρονων υλικών των εστιατορίων που συμβάλλουν στον θόρυβο και τη χρήση τεχνικών ηχομείωσης παρά τα ζητήματα συντήρησης και αισθητικής.
Συζητούνται τεχνολογικές εξελίξεις όπως τα κατευθυντικά μικρόφωνα, η αναγνώριση ομιλίας σε πραγματικό χρόνο και το επιλεκτικό φιλτράρισμα ήχου, καθώς και ανησυχίες σχετικά με την προστασία της ιδιωτικής ζωής και την πιθανή κατάχρηση.
Το πρώην μέλος του διοικητικού συμβουλίου του OpenAI Helen Toner αποκάλυψε ότι ο Sam Altman απομακρύνθηκε για λίγο από τη θέση του διευθύνοντος συμβούλου λόγω πολλαπλών περιπτώσεων ανεντιμότητας και απόκρυψης πληροφοριών από το διοικητικό συμβούλιο.
Τα παραδείγματα περιλάμβαναν το διοικητικό συμβούλιο που έμαθε για την απελευθέρωση της ChatGPT μέσω Twitter και τον Altman που δεν αποκάλυψε τα οικονομικά του συμφέροντα στην εταιρεία, μαζί με κατηγορίες για παροχή ανακριβών πληροφοριών σχ ετικά με την ασφάλεια και "ψυχολογική κακοποίηση" από δύο στελέχη.
Ο Altman επανήλθε στη θέση του διευθύνοντος συμβούλου λιγότερο από μια εβδομάδα αργότερα, αφού το προσωπικό απείλησε να παραιτηθεί και η Microsoft εξέφρασε ενδιαφέρον για την πρόσληψη της ομάδας του- ο Toner παραιτήθηκε λίγο μετά την επιστροφή του.
Ο διευθύνων σύμβουλος της OpenAI Sam Altman απομακρύνθηκε για λίγο και στη συνέχεια επαναπροσλήφθηκε, αποκαλύπτοντας εντάσεις μεταξύ της εξουσίας του διοικητικού συμβουλίου και της επιρροής των βασικών επενδυτών και ιδρυτών.
Ο κακός χειρισμός της απόλυσης του Altman από το διοικητικό συμβούλιο οδήγησε σε σημαντικές αντιδράσεις των εργαζομένων και απειλές για μαζική παραίτηση, υπογραμμίζοντας την πολύπλοκη δυναμική της εταιρικής διακυβέρνησης, της επιρροής των εργαζομένων και των οικονομικών συμφερόντων.
Το περιστατικό προκάλεσε ευρύτερες συζητήσεις σχετικά με την ηγεσία στην τ εχνολογία, τις ηθικές επιπτώσεις της αδίστακτης συμπεριφοράς και τον ρόλο της επικοινωνίας και της ηθικής στην εταιρική διακυβέρνηση.
Η ανακατεύθυνση από HTTP σε HTTP μπορεί να εκθέσει ευαίσθητα δεδομένα ή να επιτρέψει επιθέσεις Man-In-The-Middle (MITM), ειδικά για API που προσπελαύνονται από λογισμικό που μπορεί να μην χειρίζεται κεφαλίδες ασφαλείας.
Τεχνικές όπως το HSTS (HTTP Strict Transport Security) και οι λειτουργίες HTTPS-Only βελτιώνουν την ασφάλεια, αλλά μπορεί να μην είναι επαρκείς για τα APIs, γεγονός που υπογραμμίζει την ανάγκη για μια προσέγγιση που να επιτρέπει τον έγκαιρο εντοπισμό σφαλμάτων.
Οι βέλ τιστες πρακτικές θα πρέπει να επικαιροποιηθούν ώστε να συνιστούν στα API να απορρίπτουν εντελώς τα μη κρυπτογραφημένα αιτήματα και να ανακαλούν τα διαπιστευτήρια API που αποστέλλονται μέσω μη κρυπτογραφημένων συνδέσεων για την αποφυγή κινδύνων ασφαλείας.
Η συζήτηση δίνει έμφαση στην ενίσχυση της ασφάλειας API με την ανακατεύθυνση του HTTP σε HTTPS και την ανάκληση των κλειδιών API που αποστέλλονται μέσω HTTP για την αποτροπή επιθέσεων Man-in-the-Middle (MITM).
Επισημαίνει τη σημασία της σωστής διαχείρισης κλειδιών API, της χρήσης υπογεγραμμένων κατακερματισμών, nonces και χρονοσφραγίδων για έλεγχο ταυτότητας, καθώς και την αναγκαιότητα του HTTPS για την ακεραιότητα των δεδομένων και την προστασία της ιδιωτικής ζωής.
Η συζήτηση επικρίνει την εξάρτηση από τις Αρχές Πιστοποιητικών και προτείνει πρακτικές λύσεις όπως μοναδικές διευθύνσεις URL ή κλειδιά API για ασφαλή έλεγχο πρόσβασης σε συγκεκριμένα πλαίσια.
Το Llama3-V είναι ένα νέο πολυτροπικό μοντέλο βασισμένο στο Llama3, σχεδιασμένο για να ανταγωνίζεται μεγαλύτερα μοντέλα όπως το GPT-4V, αλλά με σημαντικά χαμηλότερο κόστος (κάτω από 500 δολάρια).
Ξεπερνά το σημερινό μοντέλο Llava κατά 10-20% σε δείκτες αναφοράς πολυτροπικής κατανόησης, χρησιμοποιώντας το SigLIP για την ενσωμάτωση εικόνων και την ευθυγράμμιση οπτικών και κειμενικών μαρκών μέσω ενός μπλοκ προβολής με στρώματα αυτοπροσοχής.
Οι βασικές βελτιστοποιήσεις περιλαμβάνουν τον προ-υπολογισμό των ενσωματωμένων εικόνων και την αξιοποίηση του MPS/MLX για αποτελεσματική εκπαίδευση, με μια διαδικασία εκπαίδευσης που περιλαμβάνει προ-εκπαίδευση σε 600.000 παραδείγματα και τελειοποίηση υπό επίβλεψη σε 1 εκατομμύριο παραδείγματα.
Το άρθρο συγκρίνει διάφορα πολυτροπικά μοντέλα τεχνητής νοημοσύνης, εστιάζοντας στο Llama 3-V, το οποίο στοχεύει να φτάσει τις επιδόσεις του GPT-4V, αλλά είναι μικρότερο και φθηνότερο.
Επισημαίνει ότι μοντέλα όπως το InternVL-1.5 και το CogVLM υπερτερούν έναντι του Llava, με συγκεκριμένα μοντέλα να υπερέχουν σε εργασίες όπως η OCR (οπτική αναγνώριση χαρακτήρων) και η κατανόηση GUI (γραφική διεπαφή χρήστη).
Οι χρήστες συζητούν τις πρακτικές εφαρμογές, τους περιορισμούς και τη σχέση κόστους-αποτελεσματικότητας αυτών των μοντέλων, συμπεριλαμβανομένης της χρήσης του GPT-4V στην παραγωγή για οπτικές εργασίες και της αποτελεσματικότητας των σύγχρονων εργαλείων OCR, όπως το PaddleOCR και το TrOCR.
Στις 29 Μαΐου 2024, η Mistral AI εγκαινίασε το Codestral, ένα ανοιχτού βάρους παραγωγικό μοντέλο τεχνητής νοημοσύνης για την παραγωγή κώδικα, εκπαιδευμένο σε πάνω από 80 γλώσσες προγραμματισμού.
Το Codestral διαθέτει μέγεθος μοντέλου 22B και παράθυρο περιβάλλοντος 32k, ξεπερνώντας τους ανταγωνιστές του σε συγκριτικές δοκιμές όπως το RepoBench και το HumanEval.
Διαθέσιμο υπό την Άδεια Μη Παραγωγής Mistral AI, το Codestral μπορεί να προσπελαστεί μέσω ενός ειδικού τελικού σημείου ή να ενσωματωθεί σε εργαλεία όπως το VSCode και το JetBrains, με τους προγραμματιστές να επαινούν την ταχύτητα, την ακρίβεια και τον αντίκτυπο στην παραγωγικότητα.
Το μοντέλο κώδικα της Mistral, που κυκλοφορεί από την ιστοσελίδα mistral.ai, έχει περιοριστική άδεια χρήσης που απαγορεύει την εμπορική χρήση, τις ζωντανές συνθήκες και την εσωτερική χρήση της εταιρείας, περιορίζοντας τις πρακ τικές εφαρμογές του και προκαλώντας κριτική.
Η συζήτηση γύρω από την άδεια χρήσης του Mistral αναδεικνύει ευρύτερα ζητήματα πνευματικών δικαιωμάτων και αδειοδότησης σε περιεχόμενο που παράγεται από τεχνητή νοημοσύνη και την κατάχρηση του όρου "ανοιχτός κώδικας" στην τεχνητή νοημοσύνη.
Οι χρήστες εκφράζουν την απογοήτευσή τους για την ασυνεπή παραγωγή κώδικα της ΤΝ, ιδίως σε πολύπλοκες εργασίες, και συζητούν τους περιορισμούς και τις δυνατότητες διαφόρων μοντέλων ΤΝ, συμπεριλαμβανομένων των μοντέλων Llama της Meta και GPT της OpenAI.
Το άρθρο "What We Learned from a Year of Building with LLMs (Part I)" του Eugene Yan και των συνεργατών του διερευνά τις ραγδαίες εξελίξεις και τις πρακτικές εφαρμογές των μεγάλων γλωσσικών μοντέλων (LLMs), ενώ παράλληλα αντιμετωπίζει τις προκλήσεις στην ανάπτυξη αποτελεσματικών προϊόντων τεχνητής νοημοσύνης.
Τα βασικά μαθήματα περιλαμβάνουν τις βέλτιστες πρακτικές στην προτροπή, την ανάκτηση-ενισχυμένη παραγωγή (RAG), τη μηχανική ροής και την αξιολόγηση, με έμφαση σε τεχνικές όπως οι προτροπές n-shot και η προτροπή αλυσίδας σκέψης.
Το άρθρο παρέχει επίσης επιχειρησιακές συμβουλές σχετικά με τη διαχείριση των πρακτόρων ΤΝ, την τελειοποίηση των προτροπών, τη λεπτομερή ρύθμιση των μοντέλων και τη μείωση του κόστους και της καθυστέρησης μέσω της προσωρινής αποθήκευσης, δίνοντας έμφαση σε πρακτικές αξιολογήσεις και ανθρωποκεντρικές προσεγγίσεις.
Οι γνώσεις από ένα χρόνο εργασίας με Μεγάλα Γλωσσικά Μοντέλα (LLM) υπογραμμίζουν τη σημασία της πολλαπλής δειγματοληψίας για τη μείωση των ποσοστών ψευδαισθήσεων και τη δημιουργία δικαιολογητικών πριν από τις αποφάσεις για πιο ακριβή αποτελέσματα.
Το άρθρο συζητά τις προκλήσεις στην αξιολόγηση των εξόδων LLM, την επίδραση της θερμοκρασίας στην τυχαιότητα των εξόδων και τις παρανοήσεις σχετικά με τη δειγματοληψία, καθώς και τις εμπειρίες από τη χρήση εργαλείων όπως τα patchbots και η αναζήτηση δέσμης.
Αντιμετωπίζει τις ανησυχίες του κλάδου, όπως τα υψηλά ποσοστά σφαλμάτων, τις επενδύσεις με γνώμονα το FOMO και την επιθετική ώθηση από εταιρείες όπως η Google να ενσωματώσουν τεχνητή νοημοσύνη παρά τα πιθανά προβλήματα ποιότητας υπηρεσιών.