动口不动手!语音控制Gemini API修图,让AI成为你的PS工具!

想体验用声音控制 AI 修图的乐趣吗?这篇博客为你揭秘如何利用 Gemini API 和语音识别技术,打造属于你的语音修图工具。从代码实现到效果展示,一步步教你解放双手,让 AI 成为你的专属 PS 大师。

阅读时长: 2 分钟
共 731字
作者: eimoon.com

语音控制Gemini API修图,解放你的双手!

大家好!今天分享一个超级酷的AI应用:用语音控制Gemini API进行图像编辑!

本地运行,语音操控

在Google AI Studio,你可以直接使用Gemini的图像编辑功能。但今天我们玩点不一样的:在本地运行,并加入语音识别,真正实现“动口不动手”!

功能展示

  • 语音或文字输入: 通过麦克风或文字输入指令。
  • 图像生成与编辑: 生成新图片,或上传图片进行修改。
  • 历史记录: 查看之前的修改记录,并可恢复到某个历史节点。

演示

  1. 生成图像: 通过语音指令,如“草原上的一匹白马”,生成相应图像。
  2. 编辑图像: 通过语音命令修改颜色、添加内容、调整细节。
  3. 上传图片编辑: 上传照片,让AI添加墨镜、帽子,或更改背景、衣服等。

核心代码

使用Python编写语音识别和API调用代码,实现语音控制Gemini API。

# 代码示例(简略)
# 语音识别部分...
# API 调用部分...



<!-- 微信公众号和个人号二维码 -->
<h3 class="wx-title">关注我获取更多资讯</h3>
<div class="wx-contact">
  <div class="wx-contact-item wx-public">
    <img src="/img/gongzhonghao.jpg" alt="公众号" class="wx-contact-img">
    <div>📢 公众号</div>
  </div>
  <div class="wx-contact-item wx-personal">
    <img src="/img/aixue689.jpg" alt="个人号" class="wx-contact-img">
    <div>💬 个人号</div>
  </div>
</div>
<!-- 水印代码 -->
 <!-- magick mogrify -gravity SouthEast -pointsize 40 -fill orangered -annotate +30+30 "blog.eimoon.com" -format webp *.webp -->
<!-- <h3 class="wx-title">关注我获取更多资讯</h3>
<div class="wx-contact">
  <div class="wx-contact-item wx-public">
    <img src="/img/gongzhonghao.jpg" alt="公众号" class="wx-contact-img">
    <div>📢 公众号</div>
  </div>
  <div class="wx-contact-item wx-personal">
    <img src="/img/aixue689.jpg" alt="个人号" class="wx-contact-img">
    <div>💬 个人号</div>
  </div>
</div> -->
使用 Hugo 构建
主题 StackJimmy 设计