Skip to main content

匯入臺灣語料

Project description

Huē-ji̍p

PyPI version Build Status Coverage Status

匯入語料專案,目前語料都放在Taiwanese-Corpus Github,各專案詳細內容請洽各專案README。

會當參考服務的文件

台語

臺灣閩南語常用詞辭典-詞條

  • 形式:全漢、全羅
  • 句數:28830(2018/07/18)
  • 語料:Github
python manage.py 教典詞條

臺灣閩南語常用詞辭典-例句

  • 形式:全漢、全羅
  • 句數:13835(2018/07/05)
  • 語料:Github
python manage.py 教典例句

TGB通訊

  • 形式:漢羅、華語平行語料
  • 句數:35017(2018/07/05)
  • 語料:Github
python manage.py TGB通訊

iCorpus台華平行新聞語料庫

  • 形式:全羅、華語平行語料
  • 句數:83544(2018/07/05)
  • 語料:Github
python manage.py icorpus臺華平行新聞語料庫

教育部詞彙分級計劃

  • 形式:全漢、全羅
  • 句數:61354句(2018/07/05)
  • 語料:API
python manage.py 詞彙分級

台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計

  • 形式:漢羅抑是全羅
  • 段數:193071段, 其中漢羅128505段、全羅64566段(2018/07/24)
  • 語料:Github
python manage.py 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計

台語文數位典藏資料庫

  • 形式:漢羅、全羅
  • 段數:67005段,其中62246段對會齊,4759段無法度對齊就用羅馬字(2018/07/30)
  • 語料:Github
python manage.py 台語文數位典藏資料庫

教育部臺灣閩南語字詞頻調查工作

  • 形式:漢羅、全羅
  • 段數:59300段,其中53593段對會齊,5707段無法度對齊就用羅馬字(2018/07/24)
  • 語料:Github
python manage.py 教育部臺灣閩南語字詞頻調查工作

白話字文獻館

  • 形式:漢羅、全羅
  • 段數:43493段,其中31195段對會齊,12298段無法度對齊就用羅馬字(2018/07/31)
  • 語料:Github
python manage.py 白話字文獻館

台灣植物名彙

  • 形式:羅馬字、華語漢字
  • 句數:354詞(2018/07/24)
  • 語料:Github
python manage.py 台灣植物名彙

台灣白話基礎語句

  • 形式:羅馬字、華語漢字
  • 句數:61354詞翻譯對照(2018/07/24)
  • 語料:Github
python manage.py 台灣白話基礎語句

服務文件

族語

族語辭典

python manage.py 族語辭典0下載 Pangcah # 完整匯入。較慢,愛五六工
# python manage.py 族語辭典0下載 Pangcah --下載幾筆 10 # 匯入10筆就好,試驗用
python manage.py 族語辭典1轉檔 Pangcah
python manage.py 族語辭典2匯入 Pangcah

語言代碼請參考程式。下載好的音檔在這。

台語

教典詞條音檔

  • 形式:全漢、全羅
  • 詞數:
  • 語者:王秀容
python manage.py 教典音檔0下載 dropbox # 20160926掠的版本
# python manage.py 教典音檔0下載 官網沓沓掠 # 較慢,愛一工
python manage.py 教典音檔1轉檔 # 轉全部mp3音檔做16000Hz的wav
# python manage.py 教典音檔1轉檔 --匯入幾筆 100 # 轉100筆就好,試驗用
python manage.py 教典音檔2匯入 # 完整匯入
# python manage.py 教典音檔2匯入 --匯入幾筆 100 # 匯入100筆就好,試驗用

新北市900例句

  • 形式:全漢、全羅
  • 句數:150句
  • 語者:王秀容
python manage.py 新北市900例句 --頻率 16000 # 原始音檔頻率44100Hz

準做欲用秀容老師的聲,請配合教典做伙用,無訓練會產生錯誤

台文/華文線頂辭典

形式:台華英辭典 詞數:

python manage.py 台華辭典

臺灣閩南語卡拉OK正字字表

  • pdf→純文字→臺灣言語資料庫yaml
  • 臺語→臺語
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml

iCorpus台華平行新聞語料庫漢字臺羅版

  • 純文字→臺灣言語資料庫yaml
  • 白話字→全漢全羅
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml

咱的字你敢捌-台語漢字

  • html→臺灣言語資料庫yaml
  • 臺語→臺語
  • 988筆文本資料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml

臺語國校仔課本

  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅 0* https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml

新約聖經語料

  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅
  • https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml

猶未整理

遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`

客家話

教育部臺灣客家語常用詞辭典

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml

客語能力認證資料檔

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml

猶未整理

族語

族語E樂園

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml

阿美語方敏英字典Virginia Fey's Amis Dictionary

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml

猶未整理

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

hue7jip8-0.1.2.zip (351.9 kB view hashes)

Uploaded Source

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page