原創|行業資訊|編輯:郝浩|2013-10-22 10:17:21.000|閱讀 5630 次
概述:本文講述了如何用Aspose.Words從文檔中提取表格數據。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
對于某些項目,開發人員需要從Word文檔中提取數據并導出到數據庫。最大的挑戰是必須支持現有Word文檔。
相同格式且帶多個數據塊的Word文檔有成千上萬。該文檔格式并不是設計來被另一個系統所讀取的。這意味著,沒有書簽、合并字段、從標準指令識別實際數據的方式等。還好,所有輸入字段都在表格內,但這些表格也是不同的格式,一些是單行/單元格,另一些則變化多端。
我們可以用Aspose.Words來創建和操作Word文檔。
以C#創建一個類似的表格模型從而稍后當讀取文檔的時候我們可以用上它。
如下所示,你可以看到創建的名為WordDocumentTable的類,帶有三個屬性,如TableID,RowID和ColumnID,如之前所說的,我們沒有支持TableID/RowIDs,這些屬性僅僅暗示著Word文檔的位置。開始索引假定為0。
public class WordDocumentTable { public WordDocumentTable(int PiTableID) { MiTableID = PiTableID; } public WordDocumentTable(int PiTableID, int PiColumnID) { MiTableID = PiTableID; MiColumnID = PiColumnID; } public WordDocumentTable(int PiTableID, int PiColumnID, int PiRowID) { MiTableID = PiTableID; MiColumnID = PiColumnID; MiRowID = PiRowID; } private int MiTableID = 0; public int TableID { get { return MiTableID; } set { MiTableID = value; } } private int MiRowID = 0; public int RowID { get { return MiRowID; } set { MiRowID = value; } } private int MiColumnID = 0; public int ColumnID { get { return MiColumnID; } set { MiColumnID = value; } } }
現在來到提取環節。如下所示,你將看到我想要從文檔中讀取的表格單元格的連接。
private List<WordDocumentTable> WordDocumentTables { get { List<WordDocumentTable> wordDocTable = new List<WordDocumentTable>(); //Reads the data from the first Table of the document. wordDocTable.Add(new WordDocumentTable(0)); //Reads the data from the second table and its second column. //This table has only one row. wordDocTable.Add(new WordDocumentTable(1, 1)); //Reads the data from third table, second row and second cell. wordDocTable.Add(new WordDocumentTable(2, 1, 1)); return wordDocTable; } }
下面是從基于表格的Aspose.Words文檔提取數據,行和單元格。
public void ExtractTableData(byte[] PobjData) { using (MemoryStream LobjStream = new MemoryStream(PobjData)) { Document LobjAsposeDocument = new Document(LobjStream); foreach(WordDocumentTable wordDocTable in WordDocumentTables) { Aspose.Words.Tables.Table table = (Aspose.Words.Tables.Table) LobjAsposeDocument.GetChild (NodeType.Table, wordDocTable.TableID, true); string cellData = table.Range.Text; if (wordDocTable.ColumnID > 0) { if (wordDocTable.RowID == 0) { NodeCollection LobjCells = table.GetChildNodes(NodeType.Cell, true); cellData = LobjCells[wordDocTable.ColumnID].ToTxt(); } else { NodeCollection LobjRows = table.GetChildNodes(NodeType.Row, true); cellData = ((Row)(LobjRows[wordDocTable.RowID])). Cells[wordDocTable.ColumnID].ToTxt(); } } Console.WriteLine(String.Format("Data in Table {0}, Row {1}, Column {2} : {3}", wordDocTable.TableID, wordDocTable.RowID, wordDocTable.ColumnID, cellData); } } }
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網