一份多年累积的个人多语词汇语料(英 / 西 / 法 / 粤为主),经 DeepSeek 重新校正语言标签后整理而成。
在线:https://beltran12138.github.io/POLYGLOT-MATRIX/
14116 条手记词汇,每条含原文、词性与中文释义。原始数据的语言标签曾用字符集启发式判定,错误率约 50%(拉丁字母诸语互相误判)。本仓库用 DeepSeek 逐条重判语言,四语(英西法粤)准确率约 98%。
| 语言 | 数量 | 校正前 |
|---|---|---|
| English | 12262 | 12396 |
| Français | 863 | 10 |
| Español | 677 | 1295 |
| 粵語(带 jyutping) | 299 | 0 |
| 其余(荷/希腊/印尼,残值) | 14 | 0 |
法语从 10 → 863(原误标进西语桶),粤语从 0 → 299(原混在中文桶),西语去除英法污染。
vocabulary.json 原始数据(语言标签不可信,留作 raw 源)
vocabulary_v4.json 主数据:每条带 lang_new(校正语言)+ conf(信心)
index.html 可视化网页(语言分布 / 词性 / 跨语言同源词),Pages 入口
ep_relang.py DeepSeek 语言重判脚本(生成 v4)
build_viz.py 生成 index.html
build_obsidian.py 导出 Obsidian 双链库(每词一 note,同源词互链)
build_anki.py 导出 Anki .apkg(按语言分子 deck,可选 TTS)
DIAGNOSIS.md 完整诊断与方法记录(含失败教训)
# 语言重判需 DeepSeek key(写入 .env: DEEPSEEK_API_KEY=...)
python ep_relang.py --all # vocabulary.json → vocabulary_v4.json
python build_viz.py # → index.html
python build_obsidian.py # → obsidian_vault/
pip install genanki && python build_anki.py # → polyglot_deck.apkgMIT