TL;DR

PDFファイルからの表の抽出を試みた。Camelotを使用した場合に実用的な結果を得た。

Microsoft Document Intelligence は試していない。

PDFファイルの基礎知識

PDFファイルはブロックの矩形の位置と大きさとテキストデータまたは画像データの組を要素とする配列である。メタデータなどを明示的に埋め込んでいない限り表としての構造は持っていない。従ってブロックの矩形と位置から表らしいかどうかを判定するしかない。テキストブロックの開始位置に対する2次元の自己相関やNNなどで推定するか、画像からOCRやNNで読み取るしかない。

Untitled

Untitled

画像からの読み取り

Untitled

GPT-4o

内部的にはtesseractを使用している。デフォルトでは英語しか認識できないので日本語のLSTMトレーニングデータを与えている。列がずれていたり数字にもハルシネーションがみられる。結局列を数えて手作業で修正しなければならないので実用的ではない。PDFで使われているフォントに適応するようトレーニングすれば改善するかもしれないがそこまではやっていない。

Untitled

部局等,役員,教授,准教授,講師,助教,助手,教諭等,小計,事務職員,技術職員,小計,合計
学長、理事、監事 (非常勤含む),7|1|8,,,,,,,,,,
本部,0|0|0,,0|1|84|185|25|25|126|84|210|126|84|210
法文学部,34|8|42|26|8|34|8|41|12,,1|1|68|21|89|3|2|5|3|2|5|71|23|94
教育学部,34|4|38|24|10|34|6|4|10,,44|41|85|108|59|67|4|2|6|1|1|5|2|13|61|174
社会共創学部,17|1|18|10|4|14|2|1|3|2|1|3,31|7|38|3|1|4|3|1|4|34|8|42
理工学研究科(理学系),22|2|24|21|1|22,,12|13,55|4|59|3|2|5|3|2|5|58|6|64
医系研究科,38|6|44|22|5|27|9|3|12|37|14|51,106|28|134|45|35|80|16|6|22|61|41|102|167|69|236
附属病院,2,,2|21|1|22|30|3|33|35|11|46,88|15|103|156|71|867|156|71|867|244|726|970
理工学研究科(工学系),44,,44|38|1|39|5|5|27|2|29|3|3,114|6|120|5|1|6|25|3|28|30|4|34|144|10|154
農学研究科,27,,27|26|4|30|5|3|8,58|7|65|10|11|21|10|10|20|11|31|78|18|96
附属高等学校,23|6|29|23|6|29,0|0|0|23|6|29
教育学研究科,8,8|2|1|3,10|1|1|0|0|0|10|1|1
連合農学研究科,1,,1,1|0|0|0|1|0
大学連合法務研究科,1,,1,1|0|0|0|1|0
教育・学生支援機構,2|1|3|7|2|9|4|3|7,13|6|19|0|0|0|13|6|19
社会連携推進機構,2,,2,2|0|2|0|0|0|2|0|2
知的財産センター,1,,1|1|0|0|0|1|0
防災情報研究センター,2,,2|1|0|0|0|1|0
南海水研究センター,1,,1|1|0|0|0|1|0
植物工場研究センター,1,,1|1|0|0|0|1|0
紙産業イノベーションセンター,2|2|2|1|1,5|0|5|0|0|0|5|0|5
先端研究・学術推進機構,2,,2|2|0|2|0|0|0|2|0|2
沿岸環境科学研究センター,5|5|3|3|3|1|4,11|1|12|2|2|2|0|2|13|1|14
球深部ダイナミクス研究センター,5|1|6|1|1|2,6|0|6|12|1|13|1|0|1|12|2|14
プロテオサイエンスセンター,7|3|5|3|3|5|3|8|1,19|5|24|0|0|0|19|5|24
東アジア古代鉄文化研究センター,1,,1,1|0|0|0|1|0
宇宙進化研究センター,1,,1|1|0|2|0|0|0|2|0|2
学術支援センター,1|4|4|3|3|8|0|8|10|6|16|10|6|16|18|6|24
総合情報メディアセンター,3,,3|1|1|1,5|0|5|0|0|0|5|0|5
埋蔵文化財調査室,1,,1|1|1|1,3|0|3|0|0|0|3|0|3
国際連携推進機構,2|1|3|3|2|5,5|3|8|0|0|0|5|3|8
ミュージアム,3,,3|4|0|4|0|0|0|4|0|4
防災研究センター,1,,1|2|0|2|0|0|0|2|0|2
経営情報分析室,1,,1|1|0|2|0|0|0|2|0|2
総合健康センター,1,,1|1|1|2|1|1|0|1|1|2|3
合計,7|1|8|266|23|289|228|45|273|71|19|90|138|36|174|1|4|5|67|47|11|4|778|175|953|78|153|331|245|728|973|423|881|1,304|1,201|1,056|2,257

Google Gemini

ハルシネーションがひどい。実用的ではない。