AIにおける　text to image と　image to text　の融合

text to image と　image to text　を合体させると、
text to image to text　になる。

結局、text からtextを出すだけじゃないか、となるけど。
中間のimageが明確で綺麗なimageである必要はない。
ざっくりなimageで記憶や文章の概要、ストーリーのような機能を持つ可能性がある。

image to text　は、画像から説明文などを作るけど。
textじゃなくてロボットへの命令を出すことも可能なので、
車の自動化やロボットの制御と密接な関係があったりします。

今だけだと、text to image と　image to text　は用途が限定されているけど、
ブレークしそうな気がする。