Skip to content

Beltran12138/POLYGLOT-MATRIX

Repository files navigation

Polyglot Matrix

一份多年累积的个人多语词汇语料(英 / 西 / 法 / 粤为主),经 DeepSeek 重新校正语言标签后整理而成。

在线https://beltran12138.github.io/POLYGLOT-MATRIX/


这是什么

14116 条手记词汇,每条含原文、词性与中文释义。原始数据的语言标签曾用字符集启发式判定,错误率约 50%(拉丁字母诸语互相误判)。本仓库用 DeepSeek 逐条重判语言,四语(英西法粤)准确率约 98%。

真实语言分布(vocabulary_v4.json)

语言 数量 校正前
English 12262 12396
Français 863 10
Español 677 1295
粵語(带 jyutping) 299 0
其余(荷/希腊/印尼,残值) 14 0

法语从 10 → 863(原误标进西语桶),粤语从 0 → 299(原混在中文桶),西语去除英法污染。

仓库结构

vocabulary.json       原始数据(语言标签不可信,留作 raw 源)
vocabulary_v4.json    主数据:每条带 lang_new(校正语言)+ conf(信心)
index.html            可视化网页(语言分布 / 词性 / 跨语言同源词),Pages 入口

ep_relang.py          DeepSeek 语言重判脚本(生成 v4)
build_viz.py          生成 index.html
build_obsidian.py     导出 Obsidian 双链库(每词一 note,同源词互链)
build_anki.py         导出 Anki .apkg(按语言分子 deck,可选 TTS)

DIAGNOSIS.md          完整诊断与方法记录(含失败教训)

复现

# 语言重判需 DeepSeek key(写入 .env: DEEPSEEK_API_KEY=...)
python ep_relang.py --all          # vocabulary.json → vocabulary_v4.json

python build_viz.py                 # → index.html
python build_obsidian.py            # → obsidian_vault/
pip install genanki && python build_anki.py   # → polyglot_deck.apkg

License

MIT

About

Multilingual Knowledge Base

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors