Moondream, la solution img2text pour générer des descriptions à partir de vos images

Plongez dans un univers où votre ordinateur, aussi humble puisse-t-il être, se transforme en seigneur tout-puissant du royaume visuel, capable de décoder, d’examiner et de narrer des épopées visuelles avec toute la subtilité d’un critique d’art sous l’emprise de la caféine.

Bienvenue dans l’ère de « moondream »

Ce petit modèle de langage visuel qui ne connaît pas la signification de « trop petit pour impressionner ». Armé de 1,6 milliard de paramètres, ce prodige numérique est le fruit de l’amour entre SigLIP, Phi-1.5, et le dataset LLaVA, une romance plus épicée que votre série préférée.

Pour ceux qui se demandent, « moondream » n’est pas le dernier cocktail à la mode sur la Lune, mais un modèle qui, malgré sa taille modeste comparée aux géants de l’IA, balance des uppercuts de connaissance visuelle avec la précision d’un chat ninja. Il s’installe partout, de votre grille-pain connecté (non, sérieusement, ne tentez pas ça) à votre ordinateur de bureau, prêt à transformer les pixels en poésie.

Petit mais costaud

Mais comment utiliser cette merveille, vous demandez-vous tout en ajustant vos lunettes de réalité augmentée ? C’est simple. Vous clonez son répertoire, installez quelques dépendances avec un « pip install -r requirements.txt » aussi élégant qu’un ballet de claviers, et voilà, votre machine est prête à interroger « moondream » sur l’existence métaphysique de votre chat dans les photos.

Avec « python sample.py –image [CHEMINVERSIMAGE] –prompt [PROMPT] », même votre grille-pain pourrait vous dire si le hamburger tenu par la fille de l’image est vegan ou pas. Et si vous oubliez de lui donner un prompt, pas de panique ! « moondream » est prêt à jouer à un jeu de questions-réponses, transformant chaque session en un épisode de « Qui veut gagner des millions ? » où les images sont les invitées stars.

Pour les plus aventureux, un script « gradio_demo.py » transforme votre expérience en une exposition interactive où chaque image devient une toile prête à révéler ses secrets. Et si jamais « moondream » glisse sur une peau de banane numérique, rappelons-nous qu’il est, comme nous, imparfait. Capable de générer des réponses aussi surprenantes que votre oncle au repas de Noël, il a ses limites, notamment en matière de précision et de compréhension des nuances de la langue de Molière.

Alors, oui, « moondream » peut parfois être aussi confus qu’un touriste devant un menu écrit uniquement en emojis, mais n’est-ce pas là le charme de l’aventure IA ? Préparez-vous donc à explorer cet univers où chaque pixel a une histoire, armés de votre humour geek et d’une curiosité sans limites. « moondream », c’est le petit assistant IA qui rêvait de grandes images, prouvant que dans le monde numérique, la taille n’est pas toujours synonyme de puissance.

Utilisation

Crée un environnement Python virtualitsé à partir de votre terminal (je suis sur MacOS):

python -m venv venv

Clonez ce dépôt et installez les dépendances :

./venv/bin/pip install -r requirements.txt

Utilisez le script sample.py pour exécuter le modèle sur CPU :

./venv/bin/python sample.py --image [CHEMINVERSIMAGE] --prompt [PROMPT]

Lorsque l’argument –prompt n’est pas fourni, le script vous permettra de poser des questions de manière interactive.

Interface Gradio

Utilisez le script gradio_demo.py pour lancer l’application Gradio :

./venv/bin/python gradio_demo.py

Ouvrez votre navigateur à l’adresse http://127.0.0.1:7860
Utiliser Ctrl + C pour quitter dans votre termnal

 

Texte Prompt pour questioner votre image

Voilà plusieurs example de prompt texte que vous pouvez utiliser et modifier selon vos besoin :

  • « Provide a comprehensive description of the image, focusing on key elements such as subjects, objects, setting, and any notable details and visual style. Describe the style of the image (e.g., realistic, abstract, vintage) and the atmosphere it conveys. Merge all information into a seamless paragraph without using the ‘What, Who, Where, When, How’ structure. Provide the ratio and orientation after the description. »
  • « Provide a comprehensive description of the image, focusing on the elements present, the identifiable figures, the setting, the time period if applicable, and the method of creation. Craft your description into a seamless paragraph without using the labels ‘what, who, where, when, how’ directly. »
  • « Elaborate on the details of this image, including its contents, any notable subjects or individuals, the environment depicted, the era it represents, and the technique used. Merge these elements into a cohesive paragraph, avoiding the explicit use of ‘what, who, where, when, how’ as markers. »
  • « In a detailed paragraph, describe the image by covering its main components, any discernible characters, the backdrop, the timeframe suggested, and the artistic approach taken. Ensure a fluid narrative that integrates these aspects naturally, without segregating them under ‘what, who, where, when, how.' »
  • « Examine the image closely and narrate its story, touching on the scene or objects displayed, any people or creatures featured, the location, the historical or fictional timing, and the stylistic execution. Your description should form a unified paragraph that weaves these details together organically, without resorting to ‘what, who, where, when, how’ as explicit categories. »
  • « Delve into the essence of the image by discussing its visual elements, the characters within, the scene’s setting, the period it evokes, and how it was created. Construct a single, fluid paragraph that encapsulates all these aspects, avoiding the direct use of the structuring terms ‘what, who, where, when, how’. »

Limitations

  • Le modèle peut générer des déclarations inexactes.
  • Il peut avoir du mal à adhérer à des instructions complexes ou nuancées.
  • Il est principalement conçu pour comprendre l’anglais. L’anglais informel, l’argot et les langues non anglaises peuvent ne pas fonctionner correctement.
  • Le modèle peut ne pas être exempt de biais sociétaux. Les utilisateurs doivent en être conscients et faire preuve de prudence et d’esprit critique lors de l’utilisation du modèle.
  • Le modèle peut générer du contenu offensant, inapproprié ou blessant s’il y est incité.

Source : https://github.com/vikhyat/moondream

Pas de commentaire

Publier un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Activer les notifications Super merci ! Non merci !
On which category would you like to receive?