语音控制Gemini API修图,解放你的双手!
大家好!今天分享一个超级酷的AI应用:用语音控制Gemini API进行图像编辑!
本地运行,语音操控
在Google AI Studio,你可以直接使用Gemini的图像编辑功能。但今天我们玩点不一样的:在本地运行,并加入语音识别,真正实现“动口不动手”!
功能展示
- 语音或文字输入: 通过麦克风或文字输入指令。
- 图像生成与编辑: 生成新图片,或上传图片进行修改。
- 历史记录: 查看之前的修改记录,并可恢复到某个历史节点。
演示
- 生成图像: 通过语音指令,如“草原上的一匹白马”,生成相应图像。
- 编辑图像: 通过语音命令修改颜色、添加内容、调整细节。
- 上传图片编辑: 上传照片,让AI添加墨镜、帽子,或更改背景、衣服等。
核心代码
使用Python编写语音识别和API调用代码,实现语音控制Gemini API。
# 代码示例(简略)
# 语音识别部分...
# API 调用部分...
<!-- 微信公众号和个人号二维码 -->
<h3 class="wx-title">关注我获取更多资讯</h3>
<div class="wx-contact">
<div class="wx-contact-item wx-public">
<img src="/img/gongzhonghao.jpg" alt="公众号" class="wx-contact-img">
<div>📢 公众号</div>
</div>
<div class="wx-contact-item wx-personal">
<img src="/img/aixue689.jpg" alt="个人号" class="wx-contact-img">
<div>💬 个人号</div>
</div>
</div>
<!-- 水印代码 -->
<!-- magick mogrify -gravity SouthEast -pointsize 40 -fill orangered -annotate +30+30 "blog.eimoon.com" -format webp *.webp -->
<!-- <h3 class="wx-title">关注我获取更多资讯</h3>
<div class="wx-contact">
<div class="wx-contact-item wx-public">
<img src="/img/gongzhonghao.jpg" alt="公众号" class="wx-contact-img">
<div>📢 公众号</div>
</div>
<div class="wx-contact-item wx-personal">
<img src="/img/aixue689.jpg" alt="个人号" class="wx-contact-img">
<div>💬 个人号</div>
</div>
</div> -->