AIにおける text to image と image to text の融合

text to image と image to text を合体させると、
text to image to text になる。


結局、text からtextを出すだけじゃないか、となるけど。
中間のimageが明確で綺麗なimageである必要はない。
ざっくりなimageで記憶や文章の概要、ストーリーのような機能を持つ可能性がある。


image to text は、画像から説明文などを作るけど。
textじゃなくてロボットへの命令を出すことも可能なので、
車の自動化やロボットの制御と密接な関係があったりします。


今だけだと、text to image と image to text は用途が限定されているけど、
ブレークしそうな気がする。