Synthesis AI lève 17 millions de dollars pour générer des données synthétiques pour la vision par ordinateur – TechCrunch

Synthesis AI, une startup développant une plate-forme qui génère des données synthétiques pour former des systèmes d’IA, a annoncé aujourd’hui avoir levé 17 millions de dollars dans le cadre d’un cycle de financement de série A dirigé par 468 Capital avec la participation de Sorenson Ventures et Strawberry Creek Ventures, Bee Partners. , PJC, iRobot Ventures, Boom Capital et Kubera Venture Capital. Le PDG et fondateur Yashar Behzadi a déclaré que les bénéfices iraient à la R&D des produits, à la croissance de l’équipe de l’entreprise et à l’expansion de la recherche, en particulier dans le domaine des données mixtes réelles et synthétiques.

Les données synthétiques, ou les données créées artificiellement plutôt que capturées dans le monde réel, sont de plus en plus utilisées dans la science des données à mesure que la demande de systèmes d’IA augmente. Les avantages sont évidents : bien que la collecte de données du monde réel pour développer un système d’IA soit coûteuse et chronophage, une quantité théoriquement infinie de données synthétiques peut être générée pour répondre à tous les critères. Par exemple, un développeur peut utiliser des images synthétiques de voitures et d’autres véhicules pour développer un système capable de différencier les marques et les modèles.

Sans surprise, Gartner prédit que 60 % des données utilisées pour le développement et l’analyse de projets d’IA seront synthétiques d’ici 2024. Une enquête a qualifié l’utilisation de données synthétiques de « l’une des techniques globales les plus prometteuses en [AI].”

Mais les données synthétiques ont des limites. Bien qu’il puisse imiter de nombreuses propriétés des données réelles, il ne s’agit pas d’une copie exacte. Et la qualité des données synthétiques dépend de la qualité de l’algorithme qui les a créées.

Behzadi, bien sûr, affirme que Synthesis a pris des mesures importantes pour surmonter ces obstacles techniques. Behzadi, ancien scientifique de la société de services gouvernementaux informatiques SAIC et créateur de PopSlate, un étui pour smartphone avec écran à encre électronique intégré, a fondé Synthesis on AI en 2019 dans le but, selon ses propres termes, de « résoudre le problème des données en IA”. et transformer[ing] Le paradigme de la vision par ordinateur.

“Alors que les entreprises développent de nouveaux matériels, de nouveaux modèles ou élargissent leur base géographique et de clientèle, de nouvelles données de formation sont nécessaires pour garantir le bon fonctionnement des modèles”, a déclaré Behzadi à TechCrunch par e-mail. “Les entreprises sont également aux prises avec des problèmes éthiques liés au biais des modèles et à la confidentialité des consommateurs dans les produits centrés sur l’humain. Il est clair qu’un nouveau paradigme est nécessaire pour construire la prochaine génération de vision industrielle.

Dans la plupart des systèmes d’IA, les balises, qui peuvent prendre la forme de légendes ou d’annotations, sont utilisées pendant le processus de développement pour “apprendre” au système à reconnaître certains objets. Les équipes doivent généralement ajouter minutieusement des étiquettes aux images du monde réel, mais des outils synthétiques comme Synthesis éliminent ce besoin, en théorie.

La plate-forme basée sur le cloud de Synthesis permet aux entreprises de générer des données d’images synthétiques étiquetées en utilisant une combinaison de technologies de rendu IA, de génération procédurale et d’effets visuels. Pour les clients développant des algorithmes pour relever des défis tels que la reconnaissance des visages et la surveillance des conducteurs, par exemple, Synthesis a généré environ 100 000 “personnages synthétiques” couvrant différents sexes, âges, IMC, tons de peau et ethnies. Grâce à la plateforme, les scientifiques des données pouvaient personnaliser les poses des avatars, ainsi que leurs cheveux, leurs poils faciaux, leurs vêtements (par exemple, masques et lunettes) et les aspects environnementaux tels que l’éclairage et même le “type de lentille” des avatars. .la caméra virtuelle.

“Les principales entreprises de l’AR, de la VR et du métaverse utilisent nos divers humains numériques et accompagnent un riche ensemble de repères faciaux et corporels 3D pour créer des avatars plus réalistes et émotionnels”, a déclaré Behzadi. “[Meanwhile,] nos clients de smartphones et d’appareils grand public utilisent des données synthétiques pour comprendre les performances de divers modules de caméra… Plusieurs de nos clients construisent un système de détection de conducteur et d’occupant de voiture. Ils ont exploité les données synthétiques de milliers de personnes dans l’habitacle de la voiture dans diverses situations et environnements pour déterminer le placement optimal de la caméra et les paramètres généraux afin d’assurer les meilleures performances.

L’un des avatars numériques de Synthesis AI. Crédits image : IA de synthèse

Il convient de noter que certains des domaines pris en charge par Synthesis sont controversés, tels que la reconnaissance faciale et la “détection des émotions”. Les préjugés raciaux et sexistes sont un phénomène bien documenté dans l’analyse faciale, attribuable à des lacunes dans les ensembles de données utilisés pour former les algorithmes. (D’une manière générale, un algorithme développé à partir d’images de personnes ayant des structures et des couleurs faciales homogènes sera moins performant sur les “types de visages” auxquels il n’a pas été exposé.) Récent mener une enquête met en évidence les conséquences, montrant que certains systèmes de production classent les émotions exprimées par les Noirs comme plus négatives. Les outils basés sur la vision par ordinateur comme les arrière-plans virtuels de Zoom et le recadrage automatique des photos de Twitter ont également historiquement désavantagé les personnes à la peau plus foncée.

Mais Behzadi est optimiste sur le fait que Synthesis peut réduire ces biais en générant des exemples de données – des visages divers, par exemple – qui pourraient autrement ne pas être collectées. Il affirme également que les données synthétiques de Synthesis confèrent des avantages en matière de confidentialité et d’utilisation équitable, principalement parce qu’elles ne sont pas liées à des informations personnellement identifiables (bien que certaines recherches ne soient pas d’accord) et ne sont pas protégées par le droit d’auteur (contrairement à de nombreuses images sur le site Web public).

“En plus de créer des modèles plus performants, Synthesis se concentre sur le développement éthique de l’IA en réduisant les préjugés, en préservant la confidentialité et en démocratisant l’accès… [The platform] il fournit des données parfaitement étiquetées à la demande à des ordres de grandeur plus rapides et à moindre coût par rapport aux approches d’étiquetage humain en circuit », a déclaré Behzadi. “L’IA est alimentée par des données étiquetées de haute qualité. Alors que l’espace de l’IA passe d’une IA centrée sur le modèle à une IA centrée sur les données, les données deviennent le principal moteur concurrentiel.

En fait, les données synthétiques, selon la manière dont elles sont appliquées, ont le potentiel de relever de nombreux défis de développement auxquels sont confrontées les entreprises qui tentent de mettre l’IA au travail. Récemment, des chercheurs du MIT ont trouvé un moyen de classer les images à l’aide de données synthétiques. Les chercheurs de Nvidia ont exploré un moyen d’utiliser des données synthétiques créées dans des environnements virtuels pour entraîner des robots à ramasser des objets. Et presque toutes les grandes entreprises de véhicules autonomes utilisent des données de simulation pour compléter les données du monde réel qu’elles collectent sur les voitures sur la route.

Mais encore une fois, toutes les données synthétiques ne sont pas égales. Les ensembles de données doivent être transformés avant de pouvoir être utilisés par des systèmes qui créent des données synthétiques, et les hypothèses formulées lors des transformations peuvent conduire à des résultats indésirables. Un rapport de STAT a révélé que Watson Health, la division des sciences de la vie assiégée d’IBM, fournissait souvent des conseils de traitement du cancer médiocres et peu sûrs, car les modèles de la plate-forme étaient formés à l’aide de dossiers de patients synthétiques et erronés plutôt que de données réelles. Et dans une étude de janvier 2020, des chercheurs de l’Arizona State University ont montré qu’un système d’IA entraîné sur un ensemble de données d’images de professeurs pouvait créer des visages synthétiques très réalistes, mais des visages synthétiques majoritairement masculins et blancs, car il amplifiait les biais contenus dans le original. base de données

Matthew Guzdial, professeur adjoint d’informatique à l’Université de l’Alberta, souligne que le propre livre blanc de Synthesis reconnaît que la formation d’un modèle avec uniquement des données synthétiques aggrave généralement ses performances.

“Je ne vois rien qui se démarque vraiment ici [with Synthesis’ platform]. C’est assez standard, en ce qui concerne les données synthétiques. Dans certains cas, ils peuvent utiliser des données synthétiques en combinaison avec des données réelles pour aider un modèle à se généraliser de manière utile », a-t-il déclaré à TechCrunch par e-mail. “[G]En général, j’évite que mes étudiants utilisent des données synthétiques, car je trouve qu’il est trop facile d’introduire des biais qui aggravent en fait le modèle final… Puisque les données synthétiques sont générées de manière algorithmique (par exemple avec une fonction), le plus simple chose à apprendre pour un modèle est simplement de reproduire le comportement de cette fonction, plutôt que le problème réel qu’il essaie d’approcher.”

Crédits image : IA de synthèse

Robin Röhm, co-fondateur de la plateforme d’analyse de données Apheris, soutient que des contrôles de qualité devraient être développés pour chaque nouvel ensemble de données synthétiques afin d’éviter les abus. La partie générant et validant l’ensemble de données doit avoir des connaissances spécifiques sur la façon dont les données seront appliquées, dit-il, ou risquer de créer un système inexact et éventuellement dommageable.

Behzadi est d’accord sur le principe, mais dans le but d’augmenter le nombre d’applications prises en charge par Synthesis, en battant des rivaux comme Mostly AI, Rendered.ai, YData, Datagen et Synthetaic. Avec plus de 24 millions de dollars de financement et des clients Fortune 50 dans les domaines de la consommation, du métaverse et de la robotique, Synthesis prévoit de lancer de nouveaux produits ciblant les secteurs verticaux existants et nouveaux, notamment l’amélioration de la photo, la téléconférence, la maison intelligente et les assistants intelligents.

“Avec une étendue et une profondeur inégalées de données humaines représentatives, Synthesis AI s’est imposé comme le fournisseur incontournable de données synthétiques de qualité production… La société a fourni plus de 10 millions d’images étiquetées pour soutenir les entreprises de vision artificielle les plus avancées au monde. . dit Behzadi. “Synthesis AI compte 20 employés et passera à 50 d’ici la fin de l’année.”

Add Comment