176 lines
3.9 KiB
Markdown
176 lines
3.9 KiB
Markdown
# AISee 技术选型方案
|
||
|
||
## 1. AR 眼镜硬件选型
|
||
|
||
### 推荐方案
|
||
**Rokid Air / Xreal Air**
|
||
- 轻量化设计(约 80g)
|
||
- 支持蓝牙和 USB-C 连接
|
||
- 1080p 显示分辨率
|
||
- 内置摄像头(部分型号)
|
||
- 价格适中(2000-3000元)
|
||
|
||
### 备选方案
|
||
- **RealWear HMT-1**:工业级,更耐用但较重
|
||
- **Vuzix Blade**:集成度高但价格较贵
|
||
- **自研方案**:基于树莓派 + 微型显示器(成本可控但开发周期长)
|
||
|
||
## 2. 移动端技术栈(Flutter 跨平台)
|
||
|
||
### 选型理由
|
||
- 一套代码同时支持 Android 和 iOS,快速验证产品
|
||
- Dart 语言性能接近原生,热重载提升开发效率
|
||
- 丰富的插件生态,蓝牙、相机等硬件访问成熟
|
||
- 社区活跃,问题解决快
|
||
|
||
### 核心框架
|
||
```
|
||
语言:Dart 3.2+
|
||
框架:Flutter 3.16+
|
||
状态管理:Riverpod 2.x
|
||
路由:GoRouter
|
||
网络请求:Dio
|
||
WebSocket:web_socket_channel
|
||
本地存储:Hive + sqflite
|
||
JSON 序列化:freezed + json_serializable
|
||
```
|
||
|
||
### 硬件交互
|
||
```
|
||
相机:camera 插件
|
||
蓝牙:flutter_blue_plus
|
||
权限管理:permission_handler
|
||
语音合成:flutter_tts
|
||
图片处理:image
|
||
```
|
||
|
||
### UI 相关
|
||
```
|
||
设计规范:Material Design 3
|
||
图片加载:cached_network_image
|
||
字体:google_fonts
|
||
图标:cupertino_icons + flutter_svg
|
||
```
|
||
|
||
### 开发工具
|
||
```
|
||
IDE:VS Code + Flutter/Dart 插件
|
||
代码生成:build_runner
|
||
代码规范:flutter_lints
|
||
测试:mockito + mocktail
|
||
```
|
||
|
||
## 3. 后端技术栈
|
||
|
||
### 核心框架
|
||
```
|
||
语言:Python 3.11+
|
||
Web 框架:FastAPI
|
||
异步处理:asyncio + uvicorn
|
||
任务队列:Celery + Redis
|
||
数据库:PostgreSQL 15
|
||
缓存:Redis 7
|
||
对象存储:MinIO / 阿里云 OSS
|
||
```
|
||
|
||
### AI 推理服务
|
||
```
|
||
深度学习框架:PyTorch 2.0+
|
||
模型服务:TorchServe / TensorRT
|
||
GPU 加速:CUDA 12.0+
|
||
模型管理:MLflow
|
||
```
|
||
|
||
## 4. AI 模型选型
|
||
|
||
### 视觉识别模型
|
||
|
||
#### 物体检测
|
||
- **YOLO v8**:实时性好,精度高
|
||
- **EfficientDet**:移动端友好
|
||
- **Faster R-CNN**:高精度场景
|
||
|
||
#### 文字识别(OCR)
|
||
- **PaddleOCR**:中文支持好,开源免费
|
||
- **EasyOCR**:多语言支持
|
||
- **Tesseract**:传统方案,稳定可靠
|
||
|
||
#### 场景理解
|
||
- **CLIP**(OpenAI):图文匹配,零样本学习
|
||
- **BLIP-2**:图像描述生成
|
||
- **SAM**(Segment Anything):通用分割
|
||
|
||
#### 人脸识别
|
||
- **InsightFace**:高精度,商用友好
|
||
- **FaceNet**:经典方案
|
||
- **RetinaFace**:人脸检测
|
||
|
||
### 大语言模型(LLM)
|
||
- **GPT-4 Vision**:最强理解能力(API 调用)
|
||
- **Claude 3**:视觉理解能力强
|
||
- **Qwen-VL**:国产开源,可私有化部署
|
||
- **LLaVA**:开源多模态模型
|
||
|
||
## 5. 云服务选型
|
||
|
||
### 推荐:阿里云
|
||
```
|
||
计算:ECS(GPU 实例 - GN7i)
|
||
存储:OSS
|
||
数据库:RDS PostgreSQL
|
||
缓存:Redis 企业版
|
||
CDN:阿里云 CDN
|
||
负载均衡:SLB
|
||
```
|
||
|
||
### 备选:AWS
|
||
```
|
||
计算:EC2(g4dn 实例)
|
||
存储:S3
|
||
数据库:RDS
|
||
缓存:ElastiCache
|
||
CDN:CloudFront
|
||
负载均衡:ALB
|
||
```
|
||
|
||
## 6. 通信协议
|
||
|
||
### 眼镜 ↔ 手机
|
||
- **蓝牙 BLE**:低功耗,适合控制指令
|
||
- **WiFi Direct**:高带宽,适合图像传输
|
||
- **USB-C**:有线连接,最稳定
|
||
|
||
### 手机 ↔ 后端
|
||
- **HTTP/2 + gRPC**:API 调用
|
||
- **WebSocket**:实时双向通信
|
||
- **MQTT**:轻量级消息推送
|
||
|
||
## 7. 开发工具链
|
||
|
||
### 版本控制
|
||
- Git + GitHub / GitLab
|
||
|
||
### CI/CD
|
||
- GitHub Actions / GitLab CI
|
||
- Docker + Kubernetes
|
||
|
||
### 监控运维
|
||
- Prometheus + Grafana(监控)
|
||
- ELK Stack(日志)
|
||
- Sentry(错误追踪)
|
||
|
||
### 协作工具
|
||
- Jira(项目管理)
|
||
- Confluence(文档)
|
||
- Figma(设计)
|
||
- Postman(API 测试)
|
||
|
||
## 8. 技术选型原则
|
||
|
||
1. **优先开源**:降低成本,避免供应商锁定
|
||
2. **成熟稳定**:选择经过验证的技术栈
|
||
3. **性能优先**:实时性是核心需求
|
||
4. **可扩展性**:支持未来功能扩展
|
||
5. **团队熟悉度**:考虑团队技术背景
|
||
6. **社区活跃**:便于问题解决和学习
|